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国 版 本 图 书馆 CIP 数据 核 字 (2019) 第 022886 号 


内 容 提要 


本 书 是 Python 经 典 实例 解析 ， 采 用 基于 实例 的 方法 编写 ， 每 个 实例 都 会 解决 具体 的 问题 和 难题 。 主 

要 内 容 有 : 数字 、 字 符 串 和 元 组 ， 语 名 与 语法 ， 
结构 ， 类 和 对 象 ， 函 数 式 和 反应 式 编程 ，Web 服务 ， 等 等 。 
本 书 适合 Python 初中 级 程序 员 阅 读 。 
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Python 是 全 球 的 开发 人 员 工程师、 数据 科 学 家 和 编程 爱好 者 的 首选 语言 。 它 是 杰出 的 脚本 语言 ， 
可 以 为 你 的 应 用 程序 注入 动力 ， 提 供出 色 的 速度 、 安 全 性 和 可 扩展 性 。 通 过 一 系列 简单 的 实例 剖析 
Python， 你 可 以 在 特定 的 情境 中 深入 了 解 其 具体 的 语言 特性 。 明 确 的 情境 有 助 于 理解 语言 或 标准 库 的 
特性 。 
本 书 采 用 基于 实例 的 方法 纺 


本 书 内 容 


第 1 章 主要 讨论 不 同类 型 的 数字 、 字 符 串 、 元 组 和 Python 的 基本 内 置 类 型 ， 以 及 如 何 充分 利用 
Unicode 字符 集 的 强大 功能 。 
第 2 章 首先 介绍 创建 脚本 文件 的 基础 知识 ， 然 后 讨论 一 些 复杂 的 语句 ， 包 括 if、while、for、 
try、 with 和 raise。 
第 3 章 主 要 介绍 一 些 定义 函数 的 技巧 以 及 Python 3.5 的 typing 模块 ， 并 演示 如 何 利 用 typing 
模块 为 函数 创建 更 正式 的 注释 。 
第 4 章 概述 Python 拥有 的 各 种 数据 结构 以 及 它们 解决 了 哪些 问题 。 这 一 章 将 详细 介绍 列表 、 字 典 
和 集合 ， 以 及 一 些 与 Python 处 理 对 象 引用 方式 相关 的 高 级 主题 。 
第 5 章 解 释 如 何 利用 print () 函数 的 多 个 功能 ， 并 介绍 其 他 用 于 提供 用 户 输入 的 函数 。 

第 6 章 将 创建 一 些 实现 大 量 统计 公式 的 类 。 

第 7 章 进一步 深入 探索 Python 的 类 ， 并 结合 一 些 已 经 介绍 过 的 功能 来 创建 更 复杂 的 对 象 。 

第 8 章 介绍 如 何 编写 简洁 明了 的 数据 转换 函数 。 你 还 将 了 解 反 应 式 编程 的 概念 ， 也 就 是 说 ， 当 输 
人 变 得 可 用 或 者 发 生 改 变 时 ， 执 行 处 理 规则 。 

第 9 章 主要 介绍 如 何 处 理 不 同 的 文件 格式 ， 如 JSON 、XML 和 HTML。 

第 10 章 介绍 一 些 可 以 使 用 Python 内 置 库 和 数据 结构 实现 的 基本 统计 计算 ， 并 讨论 相关 性 、 随 机 
性 和 零 假 设 等 话题 。 

第 11 章 详细 说 明 Python 使 用 的 不 同 的 测试 框架 。 

第 12 章 介绍 一 系列 创建 RESTful Web 服务 以 及 提供 静态 内 容 或 动态 内 容 的 实例 。 

第 13 章 针 对 更 大 规模 、 更 复杂 的 复合 应 用 程序 介绍 一 些 设计 方法 ,并 分 析 复 合 应 用 程序 可 能 出 现 
的 复杂 性 ， 以 及 需要 集中 的 一 些 功能 ， 如 命令 行 解 析 。 
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个 实例 都 会 解决 具体 的 问题 和 难题 。 
















































































































































































阅读 须知 


运行 本 书 的 示例 代码 仅 需要 一 台 安 装 有 较 新 Python 版 本 的 计算 机 。 虽然 示例 代码 都 使 用 Python 3 
编写 ， 但 是 仅 需 简单 修改 就 可 适用 于 Python 2。 


读者 对 象 


本 书 适合 Web 开发 人 员 、 程 序 员 、 工 程 师 和 大 数据 从 业者 阅读 。 如 果 你 是 初学 者 ， 本 书 将 带领 你 
入 门 。 如 果 你 经 验 丰富 ， 本 书 将 扩展 你 的 知识 储备 。 了 解 程序 设计 的 基础 知识 有 助 于 阅读 本 书 。 


排版 约定 


本 书 使 用 多 种 不 同 的 文本 样式 来 区 分 不 同 种 类 的 信息 。 下 面 是 各 类 格式 的 示例 及 其 所 表示 的 
含义 。 

正文 中 的 代码 、 数 据 库 表 名 、 用 户 输入 等 采用 如 下 样式 :“ 我 们 可 以 使 用 incluae 指令 包含 其 他 
下 下 区 oa 

代码 段 的 样式 如 下 所 示 : 


if distance is None: 

distance = rate * time 
elif rate is None: 

rate = distance / time 
elif time is None: 

time = distance / rate 


命令 行 输入 或 输出 采用 如 下 样式 : 


>>> circumference diameter ratio = 355/113 
>>> target color name = 'FireBrick' 
>>> target color rgb = (178, 34, 34) 


新 术语 和 重点 强调 的 文字 以 黑体 字 表 示 。 


和 此 图 标 表示 警告 或 重要 的 注意 事项 。 
佬 此 图 标 表示 提示 和 小 窍门 。 


读者 反馈 


欢迎 读者 提交 反馈 ， 内 容 可 以 是 你 对 本 书 的 看 法 ， 喜欢 哪些 部 分 ,不 喜欢 哪些 部 分 。 这 些 反 馈 至 
关 重 要 ， 有 助 于 我 们 创作 出 真正 对 读者 有 所 神 益 的 内 容 。 
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如 果 反 馈 一 般 性 信息 ， 可 以 发 送 电子 邮件 到 feedback@packtpub.com， 并 在 邮件 标题 中 注 明 书 名 。 
如 果 你 擅长 某 个 主题 ， 并 有 兴趣 写本 书 或 者 为 某 本 书 做 出 贡献 ， 请 访问 www.packtpub.com/authors 参 
阅 我 们 的 作者 指南 。 


客户 支持 


现在 你 已 经 拥有 了 这 本 由 Packt 出 版 的 图 书 ， 为 了 让 你 的 付出 得 到 最 大 的 回报 ， 本 书 还 为 你 提供 
了 其 他 诸多 方面 的 服务 。 









































下 载 示 例 代码 


你 可 以 使 用 自己 的 账户 从 http:Wwww.packtpub.com 下 载 本 书 的 示例 代码 文件 ?如 果 你 是 通过 其 他 
方式 购买 本 书 的 ,可 以 访问 http:/www.PacktPub.com/support 并 注册 ,我 们 将 通过 邮件 的 方式 发 送 给 你 。 

可 以 通过 以 下 步骤 下 载 代码 文件 : 

(1) 使 用 你 的 电子 邮箱 和 密码 登录 或 者 注册 我 们 的 网 站 ; 

(2) 把 鼠标 悬 停 在 网 站 上 方 的 SUPPORT 选项 卡 上 ; 

(3) 点 击 Code Downloads & Errata ; 

(4) 在 搜索 框 中 输入 书 名 ; 

(5) 选择 你 要 下 载 代码 文件 的 图 书 ; 

(6) 从 下 拉 菜 单 中 选择 你 购书 的 途径 ; 

(7) 点 击 Code Download。 

文件 下 载 成 功 后 ， 请 确保 使 用 以 下 最 新 版 本 的 软件 进行 解压 缩 : 
口 WinRAR /7-Zip ( Windows ) 
口 Zipeg /iZip /UnRarX (Mac ) 

口 7-Zip /PeaZip (Linux) 

本 书 的 代码 包 也 托管 在 GitHub 上 ,网 址 为 https://github.com/PacktPublishing/Modern-Python-Cookbook。 

Packt 的 其 他 图 书 和 视频 中 代码 包 的 存放 网 址 为 https://github.com/PacktPublishing/。 赶 快 去 看 看 吧 ! 


勘误 


虽然 我 们 已 经 竭尽 全 力 保证 本 书 内 容 的 准确 性 ,但 错误 仍 在 所 难免 。 如 果 你 发 现 了 本 书 的 任何 错 
误 ， 无 论 是 文本 错误 还 是 代码 错误 ， 都 请 报告 给 我 们 ， 对 此 我 们 感激 不 尽 。 这 样 不 仅 能 消除 其 他 读者 
的 疑虑 , 也 有 助 于 改进 本 书 的 后 续 版 本 。 如 果 需 要 提交 勘误 , 请 访问 http://www.packtpub.com/support， 
选择 相应 的 书 名 ， 单 击 errata submission form 链接 ， 登 记 你 的 勘误 详情 。” 一旦 勘误 得 到 确认 ， 我 们 将 
接受 你 的 提交 ， 同 时 勘误 内 容 也 将 上 传 到 我 们 的 网 站 ,或 者 添加 到 对 应 书目 勘误 区 的 现 有 勘误 表 中 。 































































































































































































人 读者 也 可 以 到 图 灵 社 区 本 书页 面 下 载 代 码 文件 ， 网 址 是 http://ituring.cn/book/1938。 一 一 编者 注 
@) 本 书 中 文 版 勘误 请 到 http://ituring.cn/book/1938 查看 和 提交 。 编者 注 





























要 查询 之 前 提交 的 勘误 ， 请 访问 http:/www.packtpub.com/support， 并 在 搜索 框 中 输入 书 名 ， 所 需 
信息 就 会 显示 在 勘误 区 。 


侵权 














所 有 正版 内 容 在 互联 网 上 都 面临 的 一 个 问题 就 是 侵权 。Packt 非常 重视 对 版 权 和 授权 的 保护 。 如 
果 你 在 网 上 发 现 Packt 图 书 的 任何 形式 的 盗版 ， 请 立即 为 我 们 提供 网 址 或 网 站 名 称 ， 以 便 我 们 采取 补 
救 措施 。 

如 果 发 现 可 疑 盗 版 材料 ， 请 通过 copyright@packtpub.com 联系 我 们 。 

非常 感谢 你 帮助 我 们 保护 作者 权益 ， 我 们 将 竭诚 为 读者 提供 有 价值 的 内 容 。 


其 他 问题 


















































如 果 你 对 本 书 某 方面 存在 疑问 ， 请 通过 questions@packtpub.com 联系 我 们 ， 我 们 将 尽力 解决 。 
电子 书 


如 和 需 购买 本 书 电 子 版 ， 请 扫描 以 下 二 维 码 。 
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本 章 将 通过 以 下 实例 介绍 Python 的 基本 数据 类 型 。 
口 创建 有 意义 的 名 称 和 使 用 变量 
口 使 用 大 整数 和 小 整数 

口 在 浮 点 数 、 小 数 和 分 数 之 间 选 择 
口 在 真 除法 和 floor 除法 "之 间 选 择 
口 重 写 不 可 变 的 字符 串 

口 使 用 正则 表达 式 解 析 字 符 串 
口 使 用 "template" .format () 创 建 复杂 的 字符 串 
口 通过 字符 列表 创建 复杂 的 字符 串 

口 使 用 键盘 上 没有 的 Unicode 字符 

口 编码 字符 串 一 一 创建 ASCII 和 UTF-8 字 节 

口 解码 字 节 一 一 如 何 根据 字 节 获得 正确 的 字符 

口 使 用 元 组 





















































1.1 引言 


本 章 将 介绍 Python 对 象 的 一 些 核心 类 型 ,我 们 将 讨论 不 同类 型 的 数字 以 及 字符 串 和 元 组 的 使 用 方 
法 。 它 们 是 最 简单 的 Python 数据 类 型 ， 因 此 会 首先 介绍 。 后 面 的 章节 将 探讨 数据 集合 。 
本 章 大 部 分 实例 假定 你 对 Python 3 有 基本 的 了 解 , 主要 介绍 如 何 使 用 Python 提供 的 数字 、 字符 串 
和 元 组 等 基本 内 置 类 型 。Python 拥有 丰富 的 数字 类 型 和 两 个 除法 运算 符 ， 因 此 需要 仔细 研究 它们 之 间 
的 区 别 。 

使 用 字符 串 时 ， 有 几 个 常见 的 操作 非常 重要 。 本 章 将 探讨 操作 系统 文件 所 使 用 的 字 节 和 Python 
所 使 用 的 字符 串 之 间 的 区 别 ， 以 及 如 何 充分 利用 Unicode 字符 集 的 强大 功能 。 

本 章 将 在 Python 的 交互 式 解释 器 中 演示 实例 ， 这 种 模式 有 时 也 称 为 REPL ( read-eval-print loop， 
“ 读 取 - 求 值 -输出 ”循环 ), 后 面 的 章节 将 仔细 研究 脚本 文件 的 编写 。 这样 做 的 目的 是 鼓励 交互 式 探索 ， 
因为 它 是 学 习 语言 的 极 佳 方式 。 

























































































Q@ floor 除法 就 是 向 下 取 整 除法 。 向 上 取 整 除法 是 ceiling。 一 一 译 者 注 








1.2 创建 有 意义 的 名 称 和 使 用 变量 


如 何 确 保 程序 易于 理解 呢 ? 要 编写 富有 表现 力 的 代码 ， 一 个 核心 要 素 就 是 使 用 有 意义 的 名 称 。 但 
什么 是 有 意义 的 呢 ? 在 本 实例 中 ,我 们 将 回顾 一 些 创 建 有 意义 的 Python 名 称 的 通用 规则 。 
我 们 还 将 介绍 Python 的 一 些 不 同形 式 的 赋值 语句 ， 如 用 同一 条 语句 为 多 个 变量 赋值 。 


1.2.1 准备 工作 


创建 名 称 的 核心 问题 是 : 被 命名 的 是 什么 ? 对 于 软件 ,我 们 需要 一 个 描述 被 命名 对 象 的 名 称 。 显 
然 , 像 x 这 样 的 名 称 不 是 很 有 描述 性 ， 它 似乎 并 不 指向 实际 的 事物 。 

模糊 的 非 描述 性 名 称 在 一 些 程序 设计 中 很 常见 ， 令 人 十 分 痛苦 。 当 使 用 它们 时 ， 无 助 于 其 他 人 理 
解 我 们 的 程序 。 描 述 性 名 称 则 一 目 了 然 。 
在 命名 时 , 区 分 解决 方案 域 和 问题 域 ( 真正 想 要 解决 的 问题 ) 也 很 重要 。 解决 方案 域 包括 Python、 
操作 系统 和 互联 网 的 技术 细节 。 不 需要 深入 的 解释 ， 任 何人 在 阅读 代码 时 都 可 以 看 到 解决 方案 。 然 
而 ,问题 域 可 能 因 技术 细 闻 而 变 得 模糊 。 我 们 的 任务 是 使 问题 清晰 可 见 ， 而 精心 挑选 的 名 称 将 对 此 有 
所 帮助 。 


1.2.2 ”实战 演练 


首先 看 看 如 何 命 名 ， 然 后 再 学 习 如 何 为 对 象 分 配 名 称 。 
1. 明智 地 选择 名 称 
在 纯 技 术 层 面 上 ，Python 名 称 必 须 以 字母 开头 。 它 们 可 以 包括 任意 数量 的 字母 、 数 字 和 下 划 线 。 
因为 Python 3 基于 Unicode， 所 以 字母 不 限于 拉丁 字母 。 虽 然 通 常 使 用 拉丁 字母 A~Z， 但 这 不 是 必须 
遵循 的 规定 。 
当 创 建 一 个 描述 性 变量 时 ,我 们 需要 创建 既 具 体 又 能 表达 程序 中 事物 之 间 关 系 的 名 称 。 一 种 广泛 
使 用 的 命名 技巧 就 是 创建 “从 特殊 到 一 般 ” 这 种 风格 的 长 名 称 。 
选择 名 称 的 步骤 如 下 。 
(1) 名 称 的 最 后 一 部 分 是 事物 的 广义 概要 。 有 时 候 ， 仪 此 一 部 分 就 能 满足 命名 的 需要 ， 靠 上 下 文 提 
供 其 余 的 信息 。 稍 后 将 介绍 一 些 典 型 的 广义 概要 的 类 别 。 
(2) 在 应 用 程序 或 问题 域 周 围 使 用 前 缀 限定 名 称 。 
(3) 如 有 必要 , 使 用 更 精确 和 专用 的 前 级 ,以 阐明 它 与 其 他 类 、 模 块 、 包 、 函 数 和 其 他 对 和 象 的 区 别 。 
对 前 级 有 疑问 时 ， 回 想 一 下 域名 的 工作 原理 。 例 如 ，mail.google.com 这 个 名 称 表 明了 从 特殊 到 一 般 的 
三 个 级 别 。 三 个 级 别 的 命名 并 不 罕见 ， 我 们 经 常 采 用 这 种 命名 方法 。 
(4) 根据 在 Python 中 的 使 用 方法 来 命名 。 需 要 命名 的 事物 有 三 大 类 ， 如 下 所 示 。 
口 类 : 类 的 名 称 能 够 概述 类 中 的 所 有 对 象 。 这 些 名 称 通 常 使 用 大 驼峰 命名 法 ( Capitalized- 
CamelCase )。 类 名 的 第 一 个 字母 大 写 ， 强 调 它 是 一 个 类 ， 而 不 是 类 的 实例 。 类 通常 是 一 个 通 
用 的 概念 ， 很 少 用 于 描述 有 形 的 事物 。 
















































































































































































































































































1.2 创建 有 意义 的 名 称 和 使 用 变量 3 


























口 对 象 : 对 象 的 名 称 通常 使 用 蛇 底 命名 法 ( snake_case )。 名 称 全 部 小 写 ， 单 词 之 间 使 用 多 个 
下 划 线 连接 。 在 Python 中 , 一切 丝 是 对 象 ， 包 括 变量 、 函 数 、 模 块 、 包 、 参 数 、 对 象 的 属性 
类 的 方法 等 。 

口 脚本 和 模块 文件 : 这 些 文件 是 Python 看 到 的 真正 的 操作 系统 资源 。 因此 , 文件 名 应 遵循 Python 
对 象 的 约定 ,使 用 字母 、 下 划 线 并 以 .py 扩展 名 结尾 。 单 从 技术 上 说 ,你 可 天 马 行 空地 设置 文 

件 名 。 但 是 ， 不 遵循 Python 规则 的 文件 名 可 能 难以 用 作 模 块 或 包 的 名 称 。 

如 何 选择 名 称 中 广义 类 别 的 那 一 部 分 呢 ? 通用 类 别 取 决 于 讨论 的 是 事物 还 是 事物 的 属性 。 虽 然 世 

界 上 有 很 多 事物 ， 但 我 们 仍然 可 以 创建 一 些 有 用 的 广义 分 类 ， 例 如 文档 、 企 业 、 地 点 、 程 序 、 产 品 、 

过 程 、 人 、 资 产 、 规 则 、 条 件 、 植 物 、 动 物 、 矿 物 等 。 

然后 可 以 用 修饰 语 来 限定 这 些 名 称 : 


FinalStatusDocument 


ReceivedInventoryItemName 




































































第 一 个 示例 是 Document 类 , 我们 通过 添加 一 个 前 级 对 其 进行 了 略微 的 限定 , 即 statusDocument， 
又 通过 将 其 命名 为 FinalstatusDocument 来 进一步 限定 。 第 二 个 示例 是 Name 类 , 我 们 通过 详细 说 明 
它 是 一 个 ReceivedInventoryItemName 来 对 其 进行 限定 。 该 示例 需要 一 个 4 个 级 别 的 名 称 来 阐明 。 

对 象 通常 具有 特性 ( property ) 或 者 属性 (attribute )。 它 们 应 当 是 完整 名 称 的 一 部 分 ， 可 以 根据 其 
表示 的 信息 类 型 进行 分 解 ， 如 数量 、 代 码 、 标 识 符 、 名 称 、 文 本 、 日 期 、 时 间 、 日 期 时 间 、 图 片 、 视 
频 、 声 音 、 图 形 、 值 、 速 率 、 百 分 比 、 尺 寸 等 。 

命名 的 思路 就 是 把 狭义 、 详 细 的 描述 放 在 最 前 面 ， 把 宽泛 的 信息 放 在 最 后 : 


measured_ height_value 
estimated weight_value 
scheduled_delivery_date 
location_ code 



















































































在 第 一 个 示例 中 , height 限定 了 更 一 般 的 表示 术语 value, 而 measured_height_value 做 了 
进一步 限定 。 通 过 这 个 名 称 ， 可 以 思考 一 下 其 他 与 hight 相关 的 变 体 。 类 似 的 思想 也 适用 于 
weight_value、delivery_date 和 1location_code。 这 些 名 称 都 有 一 个 或 者 两 个 限定 前 绥 。 

需要 避免 的 情况 

切 勿 使 用 经 过 编码 的 前 组 或 后 组 去 描述 详细 的 技术 信息 。 不 要 使 用 f_measured_ 
height_value 这 样 的 名 称 ， 其 中 f 可 能 指 的 是 浮 点 数 。 这 种 命名 方法 通常 被 称 为 
匈牙利 命名 法 (Hungarian Notation )。 像 measured_height_value 这 样 的 变量 可 
以 是 任意 数字 类 型 ，Python 会 做 所 有 必要 的 转换 。 技 术 性 修饰 对 于 代码 阅读 者 并 没 
有 多 大 帮助 ， 因 为 类 型 说 明 可 能 造成 误导 甚至 错误 。 

不 要 浪费 太 多 的 精力 使 名 称 看 起 来 属于 哪个 类 别 。 不 要 使 用 spadesCardSuit、 
ClubsCardSuit 这 样 的 名 称 。Python 有 许多 种 命名 空间 ， 包 括 包 、 模 块 和 类 ， 命 名 
空间 对 象 会 把 相关 的 名 称 收集 起 来 。 如 果 将 这 些 名 称 添加 到 Cardsuit 类 中 ， 就 可 
以 使 用 CardSuit .Spades， 以 类 作为 命名 空间 来 区 分 其 他 相似 的 名 称 。 
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2. 为 对 象 分 配 名 称 

Python 没有 使 用 静态 变量 定义 。 当 把 名 称 分 配给 对 象 时 ， 就 会 创建 变量 。 把 对 象 看 作 处 理 过 程 的 
核心 非常 重要 ， 变 量 有 点 像 标 识 对 象 的 标签 。 使 用 基本 赋值 语句 的 方法 如 下 。 

(1) 创建 对 象 。 在 许多 示例 中 ,对 象 以 字面 量 的 形式 创建 。 我 们 使 用 355 或 113 作为 Python 中 整 
数 对 象 的 字面 量 表示 ， 也 可 以 使 用 FireBrick 表示 字符 串 ， 或 使 用 (178,34,34) 表 示 元 组 。 

(2) 编写 如 下 类 型 的 语句 : 变量 = 对 象 。 例 如 : 


>>> circumference diameter ratio = 355/113 
>>> target color name = 'FireBrick' 
>>> target color rgb = (178, 34, 34) 


我 们 创建 了 一 些 对 象 并 把 它们 赋值 给 了 变量 。 第 一 个 对 象 是 数值 计算 的 结果 ， 接 下 来 的 两 个 对 象 
是 简单 的 字面 量 。 对 象 通常 由 包含 函数 或 类 的 表达 式 创建 。 
上 面 的 基本 赋值 语句 并 不 是 唯一 的 赋值 方式 ,还 可 以 使 用 链 式 赋值 的 方式 ,将 一 个 对 象 分 配给 多 
个 变量 , 例如: 
>>> target_ color name = first color name = 'FireBrick' 
上 例 为 同一 个 字符 串 对 象 创建 了 两 个 名 称 。 可 以 通过 检查 Python 使 用 的 内 部 ID 值 来 确认 这 两 个 
对 象 是 否 为 同一 个 对 象 : 


>>> id(target color name) == id(first _ color name) 
True 


结果 表明 ， 这 两 个 对 象 的 内 部 ID 值 是 相同 的 。 







































































































































































0 相等 测试 使 用 ==， 简 单 赋值 使 用 =。 





随后 介绍 数字 和 集合 时 将 会 说 明 结 合 运 算 符 进行 赋值 的 方法 。 例 如 : 
>>> total count = 0 

>>> total count += 5 

>>> total count += 6 

>>> total count 
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我 们 通过 运算 符 进行 了 增 量 赋值 。total_count + = 5 与 total_count = total_count + 5 


是 等 价 的 。 增 量 赋值 的 优点 在 于 简化 了 表达 式 。 
1.2.3 工作 原理 


本 实例 创建 名 称 的 方法 遵循 如 下 模式 : 狭义 的 、 更 具体 的 限定 符 放 在 前 面 ， 更 宽泛 的 、 不 太 特 定 
的 类 别 放 在 最 后 。 这 种 方法 遵守 用 于 域名 和 电子 邮件 地 址 的 通用 约定 。 

例如 ,域名 mail.google.com 包括 特定 的 服务 、 更 通用 的 企业 和 最 后 的 非常 通用 的 域 ， 这 遵循 了 从 
罕 到 宽 的 原则 。 

又 如 ，service@packtpub.com 以 具体 的 用 户 名 开始 ,然后 是 更 通用 的 企业 ， 最 后 是 非常 通用 的 域 。 
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甚至 用 户 名 ( PacktPub ) 也 是 一 个 具有 两 部 分 的 名 称 ， 包 括 限定 的 企业 名 称 (Packt )， 以 及 更 广泛 的 了 | 
行业 [Pub,“Publishing”( 出 版 ) 的 简写 ， 而 不 是 “Public House”( 酒吧 ) 的 简写 ]。 


赋值 语句 是 为 对 象 命名 的 唯一 途径 。 通 过 前 面 的 实例 ， 我 们 注意 到 ， 同 一 个 底层 对 象 可 以 有 两 个 
名 称 , 但 现在 还 不 清楚 这 种 特性 有 什么 用 处 。 第 4 章 将 介绍 为 一 个 对 象 分 配 多 个 名 称 的 一 些 有 趣 后 果 。 

































































1.2.4 补充 内 容 
我 们 将 在 所 有 实例 中 使 用 描述 性 名 称 。 


没有 遵循 这 种 模式 的 现 有 软件 应 当 保持 现状 。 一 般 而 言 ， 最 好 与 遗留 软件 保持 一 致 ， 
而 不 是 强加 新 规则 ， 即 使 新 规则 更 好 。 




















几乎 每 个 示例 都 涉及 变量 赋值 。 变 量 赋值 是 有 状态 的 面向 对 象 编程 的 核心 。 
第 6 章 将 讨论 类 和 类 名 ， 第 13 章 将 讨论 模块 。 











1.2.5 延伸 阅读 


描述 性 命名 是 一 个 正在 研讨 的 主题 , 涉及 两 个 方面 一 一 语法 和 语义 。Python 语法 的 设想 起 始 于 著 
名 的 PEP-8 ( Python Enhancement Proposal number 8 )。PEP-8 建议 使 用 camelcase 和 snake_case 命 
名 风格 。 

此 外 ， 务必 进行 以 下 操作 : 

>>> import this 


这 有 助 于 领悟 Python 的 设计 哲学 。 











opengroup.org/udefinfo/AboutTheUDEF.pdf )。 有 关 元 数据 和 命名 的 详细 信息 ， 请 参阅 


涯 有 关 语 义 的 信息 ， 请 参阅 遗留 的 UDEF 和 NIEM 命名 和 设计 规则 标准 ( http:/www. 
ISO11179 (https://en.wikipedia.org/wiki/ISO/IEC 11179 )。 


1.3 ”使 用 大 整数 和 小 整数 


许多 编程 语言 区 分 整数 、 字 节 和 长 整数 ， 有 些 编程 语言 还 存在 有 符号 整数 和 无 符号 整数 的 区 别 。 
如 何 将 这 些 概念 与 Python 联系 起 来 呢 ? 

答案 是 “不 需要 ”。Python 以 统一 的 方式 处 理 所 有 类 型 的 整数 。 对 于 Python， 从 几 个 字 节 到 数 百 
位 的 巨大 数字 ， 都 是 整数 。 


1.3.1 准备 工作 


假设 我 们 需要 计算 一 些 非常 大 的 数字 ， 例 如 ， 计 算 一 副 52 张 的 扑克 牌 的 排列 数 。52! = 52 x 51x 
50 x … x 2 x1， 这 是 一 个 非常 大 的 数字 。 可 以 在 Python 中 实现 这 个 运算 吗 ? 
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1.3.2 ”实战 演练 


























别 担心 ! Python 表现 得 好 像 有 一 个 通用 的 整数 类 型 ,涵盖 了 所 有 整数 ， 从 几 个 字 节 到 填 满 所 有 内 

存 的 整数 。 正 确 使 用 整数 的 步骤 如 下 。 
(1) 写 下 你 需要 的 数字 ， 比 如 一 些小 数字 : 355，113。 实 际 上 ， 数 字 的 大 小 没有 上 限 。 
(2) 创建 一 个 非常 小 的 值 一 一 单个 字 节 ， 如 下 所 示 : 


>>> 2 
2 


或 者 使 用 十 六 进 制 : 


>>> Oxff 
255 


掉 的 实例 中 将 讨论 只 含有 一 个 值 的 字 节 序列 : 


>>> b'\xfe' 
b'\xfe' 






































后 














严格 说 来 ， 这 不 是 一 个 整数 。 它 有 一 个 前 级 b， 
(3) 通过 计算 创建 一 个 很 大 的 数字 。 例 如 : 


>>> 2 ** 2048 
323...656 


该 数字 有 617 个 数位 ， 这 里 并 没有 完全 显示 。 
1.3.3 工作 原理 


Python 内 部 使 用 两 种 数字 ， 两 者 之 间 的 转换 是 无 缝 且 自动 的 。 

对 于 较 小 的 数字 ，Python 通常 使 用 4 字 节 或 8 字 节 的 整数 值 。 细 闻 隐 藏 在 CPython 的 内 核 中 ， 并 
依赖 于 构建 Python 的 C 编译 器 。 

对 于 超出 sys .maxsize 的 较 大 数字 ，Python 将 其 切换 到 大 整数 一 一 数字 ( digit ) 序列 。 在 这 种 
情况 下 ， 一 位 数字 通常 意味 着 30 位 (bit ) 的 值 。 

一 副 52 张 的 扑克 有 牌 有 多 少 种 排列 方法 ? 答案 是 521= 8 x10”。 我 们 将 使 
函数 计算 这 个 大 整数 ， 如 下 所 示 : 

>>> import math 

>>> math.factorial(52) 

80658175170943878571660636856403766975289505440883277824000000000000 

这 些 巨 大 的 数字 工作 得 非常 完美 ! 
计算 52! 的 第 一 部 分 (从 52 x 51 x 50 x … 一 直到 约 42 ) 可 以 完全 使 用 较 小 的 整数 来 执行 。 在 此 
之 后 ， 其 余 的 计算 必须 切换 到 大 整数 。 我 们 看 不 到 切换 过 程 ， 只 能 看 到 结果 。 

通过 下 面 的 示例 可 以 了 解 整 数 内 部 的 一 些 细节 。 

>>> import sys 


>>> import math 
>>> math.log(sys.maxsize, 2) 











， 这 表明 它 是 一 个 一 字 节 序列 ( 1-byte sequence )。 



















































































用 math 模块 的 factorial 
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63 .0 
>>> SYSs .int_info 
sys.int info(bits per digit = 30, sizeof digit = 4) 


sys .maxsize 的 值 是 小 整数 中 的 最 大 值 。 我 们 通过 计算 以 2 为 底 的 对 数 来 说 明 这 个 数字 需要 多 
少 位 。 

通过 计算 可 知 ，Python 使 用 63 位 值 来 表示 小 整数 。 小 整数 的 范围 是 从 -2 到 2%-1。 在 此 范围 之 
外 ， 使 用 大 整数 。 

通过 sys.int_info 的 值 可 知 ， 大 整数 是 使 用 30 位 的 数字 序列 ， 每 个 数字 占用 4 字 节 。 

像 52! 这 样 比较 大 的 值 ， 由 8 个 上 述 30 位 的 数字 组 成 。 一 个 数字 需要 30 位 来 表示 可 能 有 些 令 人 
困惑 。 以 用 10 个 符号 表示 十 进 制 (base 10 ) 的 数字 为 例 ， 我 们 需要 2**30 个 不 同 的 符号 来 表示 这 些 
大 数字 的 每 位 数 。 

涉及 多 个 大 整数 值 的 计算 可 能 会 消耗 相当 大 的 内 存 空间 。 小 数字 怎么 办 呢 ? Python 如 何 跟踪 大 量 
的 小 数字 ， 如 1 和 0? 

对 于 常用 的 数字 ( -5 到 256 )，Python 实际 上 创建 了 一 个 私有 的 对 象 池 来 优化 内 存 管理 。 你 可 以 
在 检查 整数 对 象 的 ia () 值 时 得 到 验证 。 


>>> id(1) 
4297537952 
>>> id(2) 
4297537984 
>>> a=1+1 
>>> id(a) 
4297537984 


我 们 显示 了 整数 1 和 整数 2 的 内 部 ia。 当 计算 a 的 值 时 ， 结 果 对 象 与 对 象 池 中 的 整数 2 对 象 是 
同一 个 对 象 。 

当 你 练习 这 个 示例 时 ，ia() 值 可 能 跟 示 例 不 同 。 但是， 在 每 次 使 用 值 2 时 ， 将 使 用 相同 的 对 象 。 
在 我 的 笔记 本 电脑 上 ， 对 象 2 的 ia 等 于 4297537984。 这 种 机 制 避免 了 在 内 存 里 大 量 存放 对 象 2 的 
副本 。 

这 里 有 个 小 技巧 ， 可 以 看 出 一 个 数字 到 底 有 多 大 。 


>>> len(str(2 ** 2048) ) 
617 


通过 一 个 计算 得 到 的 数字 创建 一 个 字符 串 ， 然 后 查询 字符 串 的 长 度 。 结 果 表 明 ， 这 个 数字 有 617 
个 数位 。 























































































































1.3.4 补充 知识 


Python 提供 了 一 组 丰富 的 算术 运算 符 : +、- 、*、/、//、% 和 **。/ 和 // 用 于 除法 ，1.5 节 将 讨 
论 这 些 运算 符 。** 将 执行 寡 运 算 。 

对 于 位 处 理 ， 还 有 其 他 一 些 运 算 符 ， 比 如 &、^、1、<< 和 >>。 这 些 运算 符 在 整数 的 内 部 二 进 制 表 
示 上 逐 位 操作 。 它 们 分 别 计算 二 进 制 与 、 二 进 制 异 或 、 二 进 制 或 、 左 移 和 右 移 。 









































虽然 这 些 运 算 符 也 同样 适用 于 大 整数 , 但 是 逐 位 操作 对 于 大 整数 来 说 并 没有 实际 意义 。 一些 二 进 
制 文件 和 网 络 协议 会 要 查看 数据 的 单个 字 节 中 的 位 。 
可 以 通过 bin () 函数 查看 应 用 这 些 运 算 符 的 运行 结果 。 示 例如 下 : 


>>> xor = 0b0011 ^ 0b0101 
>>> bin(xor) 
'0b110' 


先 使 用 ob0011 和 0b0101 作为 两 个 位 串 。 这 有 助 于 准确 说 明 数 字 的 二 进 制 表示 。 然 后 将 异 或 (^ ) 
运算 符 应 用 于 这 两 个 位 序列 。 最 后 使 用 pin ( ) 函数 查看 位 串 形式 的 结果 。 可 以 通过 结果 仔细 观察 各 个 
位 ， 了 解 操 作 符 的 实际 功能 。 

可 以 把 一 个 字 节 分 解 为 若干 部 分 。 假 设 我 们 要 将 最 左边 的 2 个 位 与 其 他 6 个 位 分 开 ， 其 中 一 种 方 
法 是 使 用 位 操作 (bit-fiddling ) 表达 式 ， 例 如 : 


>>> composite byte = 0b01101100 

>>> bottom 6 mask = 0b00111111 

>>> bin(composite byte >> 6) 

'0b1' 

>>> bin(composite byte & bottom 6 mask) 
'0b101100"' 


这 里 先 定义 了 一 个 composite_byte， 其 中 最 高 有 效 的 2 位 为 01， 最 低 有 效 的 6 位 为 101100。 
再 使 用 >> 移 位 运算 符 将 composite_byte 的 值 右 移 6 个 位 置 ， 去 除 最 低 有 效 位 并 保留 2 个 最 高 有 效 
位 。 然 后 使 用 & 运 算 符 和 掩 码 来 进行 操作 。 掩 码 中 值 为 1 的 位 ， 在 结果 中 保留 对 应 位 置 的 值 ; 掩 码 
值 为 0 的 位 ,结果 中 对 应 位 置 的 值 被 设置 为 0。 























































































































































































































1.3.5 延伸 阅读 


口 1.5 节 将 讨论 Python 的 两 个 除法 运算 符 。 
口 1.4 节 将 讨论 其 他 类 型 的 数字 。 
口 关于 整数 操作 的 详细 信息 ， 请 参阅 https://www.python.org/dev/peps/pep-0237/。 


1.4 在 浮 点 数 、 小 数 和 分 数 之 间 选 择 


Python 提供 了 多 种 处 理 有 理 数 和 无 理 数 近似 值 的 方法 。3 种 基本 选择 如 下 : 
口 浮 点 数 

口 小 数 
口 分 数 
有 这 么 多 种 选择 ， 那 么 怎样 选择 才 合 适 呢 ? 


1.4.1 准备 工作 


确定 我 们 的 核心 数学 期 望 值 很 重要 。 如 果 不 确定 已 拥有 的 数据 类 型 或 者 想 要 得 到 的 结果 ， 真 的 不 
应 该 开始 编码 。 我 们 需要 退 一 步 ， 用 铅笔 和 纸 来 演算 一 下 。 
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除了 整数 ， 在 数学 中 涉及 的 数字 还 有 3 种 。 

(1) 货币 : 如 美元 、 美 分 或 欧元 。 货 币 通常 具有 固定 的 小 数位 数 。 男 外 还 有 很 多 舍 入 规则 ， 例 如， 
可 以 用 这 些 规则 确定 $2.95 的 7.25% 是 多 少 美 分 。* 

(2) 有 理 数 或 分 数 : 使 用 美制 单位 的 英尺 和 英寸 ,或 在 亮 饪 中 使 用 杯 盘 司 进行 测量 时 ， 经 常 需 
要 使 用 分 数 。 把 一 个 8 人 量 的 食谱 缩减 为 5 人 量 时 ， 要 用 5/8 作为 缩放 因子 进行 分 数 运算 。 如 何 将 这 
种 方法 应 用 到 2/3 杯 米 ， 并 得 到 适用 于 厨房 量具 的 测量 值 呢 ? 

(3) 无 理 数 : 包括 所 有 其 他 类 型 的 计算 。 必 须 注 意 ， 数 字 计 算 机 只 能 带 近 这 些 无 理 数 ， 而 我 们 偶 
尔 会 看 到 近似 值 的 一 些 奇怪 现象 。 浮 点 近似 值 运 算 非 常 快 ， 但 有 时 会 出 现 截断 问题 。 

当 计 算 涉 及 前 两 种 数字 时 ， 应 当 避 免 使 用 浮 点 数 。 


1.4.2 ”实战 演练 


本 实例 将 分 别 讨论 这 3 种 数字 。 首 先 讨 论 货币 值 计算 。 然 后 讨论 有 理 数 计算 ,以 及 无 理 数 或 浮 点 
数 计算 。 最 后 讨论 这 些 类 型 之 间 的 显 式 转换 。 

1. 货币 值 计算 

在 处 理 货币 值 时 ， 应 当 坚 持 使 用 aecimal 模块 。 如 果 使 用 Python 内 置 的 浮 点 数 ， 将 会 遇 到 数字 
的 舍 人 和 截断 问题 。 

(1) 为 了 处 理 货币 值 ， 首 先 从 aecimal 模块 导入 Decimal 类 。 


>>> from decimal import Decimal 


(2) 从 字符 串 或 整数 创建 Decimal 对 象 。 


>>> from decimal import Decimal 

>>> tax_ rate = Decimal('7.25')/ Decimal(100) 
>>> purchase amount = Decimal('2.95') 

>>> tax_rate * purchase amount 
Decimal('0.213875') 

















































































































tax_rate 由 两 个 Decimal 对 象 构建 ,其 中 一 个 基于 字符 串 , 男 一 个 基于 整数 。 我们 可 以 直接 使 
用 Decimal ('0.0725')， 而 不 显 式 地 执行 除法 。 

结果 稍微 大 于 $0.21， 因 为 我 们 计算 出 了 小 数位 的 全 部 数字 。 

(3) 如 果 通 过 浮 点 数 创建 Decimal 对 象 , 那么 将 得 到 异常 的 浮 点 近似 值 。 应 当 避 人 免 混 用 Decimal 
和 float。 为 了 舍 人 入 到 最 近 的 便士 (penny ), 创建 一 个 penny 对 象 。 


>>> penny = Decimal('0.01') 


(4) 使 用 penny 对 象 量化 数据 。 


>>> total amount = purchase amount + tax rate * purchase amount 
>>> total amount .quantize (penny) 
Decimal('3.16') 





















































上 述 示例 演示 了 如 何 使 用 默认 的 ROUND_HALF_EVEN 舍 人 规则 。 











中 货币 的 最 小 单位 一 般 为 0.01 元 。 一 一 译 者 注 








舍 人 规则 有 很 多 种 ，Decimal 模块 提供 了 所 有 舍 入 规则 。 例 如: 


>>> import decimal 
>>> total amount .quantize(penny, decimal .ROUND UP) 
Decimal('3.17') 


本 示例 显示 了 使 用 另 一 种 不 同 的 舍 人 规则 的 结果 。 
2. 分 数 计算 


















































当 计 算 中 含有 精确 分 数值 时 ， 可 以 使 用 fractions 模块 。 该 模块 提供 了 便于 使 用 的 有 理 数 。 处 





























忆 


晶 分 数 的 流程 如 下 。 
(1) 从 fractions 模块 导入 Fraction 类 。 


>>> from fractions import Fraction 























(2) 由 字符 串 、 整 数 或 整数 对 创建 Fraction 对 象 。 如 果 由 浮 点 数 创建 Fraction 对 象 ， 可 能 会 











遇 到 浮 点 近似 值 的 异常 现象 。 当 分 母 是 2 的 过 时 ， 一 切 正常 。 


>>> from fractions import Fraction 
>>> sugar cups = Fraction('2.5') 
>>> scale factor = Fraction(5/8) 
>>> sugar cups * scale factor 
Fraction(25, 16) 








我 们 从 字符 串 2 .5 创建 了 第 一 个 分 数 ， 从 浮 点 计算 5/8 创建 了 第 二 个 分 数 。 因 为 分 母 是 2 的 震 ， 























所 以 计算 结果 非常 准确 。 
25/16 
































>>> Fraction(24, 16) 
Fraction(3, 2) 

















结果 表明 ， 我 们 使 用 大 约 一 杯 半 的 米 就 可 以 完成 5 人 量 的 食谱 。 


3. 浮 点 近似 值 

















结果 是 一 个 看 起 来 很 复杂 的 分 数 ， 那 么 它 的 最 简 分 数 是 多 少 呢 ? 








Python 的 内 置 浮 点 (float ) 类 型 能 够 表示 各 种 各 样 的 值 。 对 于 是 否 使 用 








浮 点 值 ， 








于 浮 点 值 通常 涉及 近似 值 。 在 某 些 情况 下 , 特别 是 在 做 涉及 2 的 过 的 除法 时 ， 














在 其 他 情况 下 ， 浮 点 值 和 分 数值 之 间 可 能 存在 细小 的 差异 ,这 反映 了 学 点 数 的 实 ] 





想 之 间 的 差异 。 
(1) 要 使 用 浮 点 数 ， 经 常 需要 舍 入 值 来 使 它们 看 起 来 合理 。 所 有 浮 点 计算 


>>>(19/155) * (155/19) 
0.9999999999999999 




















选择 的 关键 在 




















个 精确 的 分 数 。 





结果 是 











现 与 无 理 数 的 数学 理 











的 结果 都 是 近似 值 。 














(2) 上 面 的 值 在 数学 上 应 该 为 1。 由 于 float 使 用 的 是 近似 值 ， 所 以 结 
果 与 1 相差 不 多 ,但 仍然 错 了 。 当 进行 适当 的 舍 入 时 ， 这 个 值 会 更 有 意义 。 





>>> answer =(19/155) * (155/19) 
>>> round (answer, 3) 
1.0 

















并 不 精 三 


虽然 这 个 结 











(3) 认识 误差 项 。 在 本 例 中 ， 我 们 知道 确切 的 答案 ， 所 以 可 以 将 计算 结果 与 已 知 的 正确 答案 进行 
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比较 。 下 面 的 示例 给 出 的 通用 误差 项 适用 于 所 有 浮 点 数 。 





>>> l-answer 
1.1102230246251565e-16 





对 于 大 多 数 浮 点 误差 ,典型 值 约 为 10“。Python 有 一 些 聪 明 的 规则 , 有 时 通过 自动 舍 和 信 隐藏 这 个 


错误 。 但 是 ， 对 于 本 示例 ， 错误 并 没有 隐藏 





这 是 一 个 非常 重要 的 推论 。 


6 不 要 比较 浮 点 值 是 否 完全 相等 。 


在 浮 点 数 之 间 使 用 精确 的 == 测 斌 时， 如果 近 似 值 相 差 一 个 位 ， 代 码 就 会 出 现 问题 。 
4. es 
可 以 使 用 float () 函数 从 其 他 类 型 的 值 创建 一 个 float 值 。 例 如 : 


>>> float (total_amount) 

3.163875 

>>> float(sugar cups * scale factor) 
1.5625 














在 第 一 个 示例 中 ,我 们 将 Decimal 值 转换 为 float 值 。 在 第 二 个 示例 中 ， 我们 将 Fraction 值 


转换 为 float 值 。 


正如 刚刚 看 到 的 ， 我们 永远 不 想 将 float 转换 为 Decimal 或 Fraction: 


>>> Fraction(19/155) 


Fraction(8832866365939553, 72057594037927936) 
>>> Decimal(19/155) 


Decimal('0.12258064516129031640279123394066118635237216949462890625') 


在 第 一 个 示例 中 ,我们 在 整数 之 间 进 行 计算 ， 创建 了 一 个 具有 已 知 截断 问题 的 float 值 。 当 我 





























们 从 截断 的 float 值 创建 一 个 Fraction 时 ,得 到 的 是 一 些 暴 露 了 截断 问题 的 数字 。 


类 似 地 ， 第 二 个 示例 从 float 创建 了 Decimal 值 。 





1.4.3 工作 原理 














对 于 数字 类 型 ，Python 提供 了 多 种 运算 符 : *、/、//、% 和 **。 这 些 运 算 符 用 于 加 法 、 减 
、 乘 法 、 真 除法 、 截 断 除 法 、 取 模 和 需 运 算 。1.5 rs a 
Python 擅长 各 种 数字 类 型 之 间 的 转换 。 我 们 可 以 混合 使 用 整数 ( int ) 和 浮 点 数 ( float )， 整 数 









































将 被 转换 为 浮 点 数 , 以 提供 最 准确 的 答案 。 类 似 地 , 还 可 以 混合 使 用 整数 ( int ) 和 分 数 ( Fraction )， 

















2 士 





引 才 

















将 是 分 数 (Fractions )。 我 们 也 可 以 混合 使 用 整数 ( int ) 和 小 数 ( Decimal ),。 但 是 , 不 能 
便 混 合 使 用 小 数 ( Decimal ) 与 浮 点 数 (float )， 或 小 数 ( Decimal ) 与 分 数 (Fraction )， 在 这 











样 操作 之 前 ， 需 要 进行 显 式 转换 。 











必须 注意 的 是 , float 值 是 真正 的 近似 值 。 虽 然 Python 语法 允许 将 数字 写 为 小 数值 ， 
但 它们 在 Python 内 部 并 不 是 按 小 数 处 理 的 。 


我 们 可 以 使 用 普通 的 十 进 制 数值 在 Python 中 编写 如 下 值 : 


>>> 8.066e + 67 
8.066e + 67 


在 内 部 使 用 的 实际 值 将 包含 上 述 十 进 制 值 的 一 个 二 进 制 近似 值 。 
该 示例 (8.066e + 67 ) 中 的 内 部 值 为 : 


>>> 6737037547376141/2 ** 53 * 2 ** 226 
8.066e + 67 


分 子 是 一 个 大 数字 ，6737037547376141; 分 母 总 是 2”。 由 于 分 母 是 固定 的 ， 因 而 所 得 到 的 分 
数 只 能 有 53 位 有 意义 的 数据 。 由 于 53 位 之 外 的 位 不 可 用 ， 因 此 值 可 能 会 被 截断 。 这 导致 了 我 们 的 理 
想 化 抽象 和 实际 数字 之 间 的 微小 差异 。 指 数 ( 2” ) 需要 将 分 数 缩放 到 适当 的 范围 。 

在 数学 上 ， 即 6737037547376141 * 222023。 

可 以 使 用 math .frexp () 查 看 数字 的 内 部 细节 ; 


>>> import math 
>>> math.frexp(8.066E + 67) 
(0.7479614202861186, 226) 


结果 的 两 个 部 分 分 别称 为 尾数 ( mantissa ) 和 指数 (exponent )。 如 果 将 尾数 乘 以 2”“， 那 么 将 得 到 
一 个 整数 ， 这 个 整数 是 二 进 制 分 数 的 分 子 。 






















































































(外 前 面 提 到 的 误差 项 与 该 值 非常 地 匹配 : 10 2 


与 内 置 的 float 不 同 ，Fraction 是 两 个 整数 值 的 精确 比率 。 正 如 1.3 节 所 示 ，Python 中 的 整数 
可 能 非常 大 。 我 们 可 以 创建 包含 具有 大 量 数位 的 整数 的 比率 ， 并 且 不 受 固 定 分 母 的 限制 。 
类 似 地 , Decimal 值 基 于 非常 大 的 整数 值 和 用 于 确定 小 数 点 位 置 的 缩放 因子 。 这些 数 字 可 以 是 
大 的 ， 不 会 有 特殊 的 表示 问题 。 
为 什么 要 使 用 浮 点 数 ? 原因 有 两 个 
Po 并 不 是 所 有 可 计算 的 数字 都 可 以 表示 为 分 数 。 这 就 是 数学 家 引入 (或 者 可 能 是 发 现 ) 























一 局 
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无 理 数 的 原因 。 内 置 的 float 类 型 与 无 理 数 的 数学 抽象 非常 接近 。 例 如 ， 像 V2 这 
样 的 值 就 不 能 表示 为 分 数 。 
此 外 ， 浮 点 值 运算 非常 快 。 


1.4.4 ”补充 知识 


Python 的 math 模块 包含 许多 用 于 处 理 浮 点 值 的 专用 函数 。 该 模块 包括 了 常用 的 函数 , 如 平方 根 、 
对 数 和 各 种 三 角 函数 ， 还 包括 其 他 一 些 函 数 ， 如 伯 玛 函数 、 阶 乘 函 数 和 高 斯 误差 函数 。 
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math 模块 也 包含 了 一 些 可 以 精确 计算 浮 点 数 的 函数 。 例 如 ，math.fsum() 函数 将 比 内 置 sum() 
函数 更 加 周密 地 计算 浮 点 和 。math .fsum() 函数 很 少 出 现 近似 值 问 题 。 
还 可 以 使 用 math.isclose() 函数 比较 两 个 浮 点 值 是 否 接 近 相 等 : 








>>> (19/155)*(155/19) == 1.0 

False 

>>> math.isclose((19/155)*(155/19), 1) 
True 


























该 函数 提供 了 一 种 正确 比较 浮 点 数 的 方法 。 
Python 还 提供 了 复数 数据 类 型 。 复 数 由 实 部 和 虚 部 组 成 。 在 Python 中 ，3 .14 + 2.78j 代表 复 
































数 3.14+2.78 V-1 。Python 可 以 在 浮 点 数 和 复数 之 间 进 行 轻松 的 转换 。Python 提供 了 一 组 常用 的 复数 


运算 符 。 
为 了 更 好 地 支持 复数 ，Python 内 置 了 cmath 包 。 例如 ，cmath.sqrt () 函数 将 返回 一 个 复数 值 ， 
而 不 是 在 求 负数 的 平方 根 时 抛 出 异常 。 示 例如 下 : 


>>> math.sart(-2) 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

ValueError: math domain error 

>>> cmath.sqrt(-2) 

1.4142135623730951j 


在 操作 复数 时 ， 离 不 开 cmath 包 。 











1.4.5 延伸 阅读 


口 1.5 节 将 详细 讨论 浮 点 数 和 分 数 。 
口 请 参阅 https://en.wikipedia.org/wiki/IEEE floating point。 


1.5 ”在 真 除 法 和 floor 除法 之 间 选 择 


Python 提供 了 两 种 除法 运算 符 。 本 实例 将 介绍 这 两 种 运算 符 以 及 它们 适用 的 情景 ， 还 将 介绍 
Python 除法 规则 以 及 如 何 对 整数 值 进 行 除法 运算 。 


1.5.1 准备 工作 
除法 运算 有 几 种 常见 的 使 用 场景 。 
口 div-mod 对 : 我 们 需要 两 部 分 值 商 和 余数 。 当 对 数值 进行 数 制 转换 时 ,或 者 把 秒 数 转 换 为 
小 时 、 分 钟 和 秒 时 ,会 执行 div-mod 除法 。 我 们 不 想 要 确切 的 小 时 数 ， 只 是 想 要 一 个 截断 的 小 
时 数 ， 余 数 转 换 为 分 钟 和 秒 。 
口 真实 (true ) 值 : 典型 的 浮 点 值 一 商 的 良好 近似 值 。 例 如 ,如 果 计 算 一 些 测量 数据 的 平均 值 ， 
那么 我 们 通常 希望 结果 是 浮 点 值 ， 即 使 输入 值 都 是 整数 。 
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口 合理 的 分 数值 : 当 我 们 使 用 英尺 、 英 寸 和 杯 等 美国 单位 时 ， 常 常 需要 这 种 值 。 为 此 ， 应 当 使 
用 Fraction 类 。 当 使 用 Fraction 对 象 时 ， 总 是 得 到 确切 的 答案 。 
我 们 首先 需要 确定 适用 哪 种 情况 ， 然 后 就 知道 该 使 用 哪 种 除法 运算 符 了 。 





























1.5.2 ”实战 演练 


我 们 将 分 别 讨论 这 三 种 情况 。 首 先 讨 论 截 断 的 floor 除法 ， 然 后 讨论 真正 的 浮 点 除法 ， 最 后 讨论 
分 数 的 除法 。 

1. floor 除法 
在 做 div-mod 类 计算 时 ， 可 以 使 用 floor 除法 运算 符 ( // ) 和 取 模 运算 符 (% )。 或 者 也 可 以 使 用 
divmod() 函数 。 

(1) 将 秒 数 除 以 3600 得 到 小 时 数 ， 模 数 或 余数 可 以 分 别 转换 为 分 钟 数 和 秒 数 。 


>>> total seconds = 7385 
>>> hours = total seconds//3600 
>>> remaining seconds = total seconds % 3600 


(2) 将 步 又 (1) 剩 余 的 秒 数 除 以 60 得 到 分 钟 数 ， 余 数 是 小 于 60 的 秒 数 。 


>>> minutes remaining seconds//60 
>>> seconds remaining seconds % 60 
>>> hours, minutes, seconds 
































(2, 3, 5) 
使 用 divmod() 函数 的 示例 如 下 。 
(1) 同时 计算 商 和 余数 。 


>>> total_ seconds = 7385 
>>> hours, remaining seconds = divmod(total seconds, 3600) 


(2) 再 次 计算 商 和 余数 。 


>>> minutes, seconds = divmod(remaining seconds, 60) 
>>> hours, minutes, seconds 
(2, 3, 5) 


2. 真 除法 

真 值 除法 计算 的 结果 是 浮 点 近似 值 。 例 如 ,7386 秒 是 多 少 小 时 ? 使 用 真 除法 运算 符 进行 除法 运算 : 
>>> total seconds = 7385 

>>> hours = total seconds / 3600 


>>> round (hours, 4) 
2.0514 





— 











我 们 提供 了 两 个 整数 值 ， 但 得 到 了 一 个 精确 的 浮 点 数 结果 。 与 以 前 使 用 浮 点 值 的 实 
例 相 一 致 ， 我 们 取 整 了 结果 ， 以 避免 出 现 微小 的 误差 值 。 








这 种 真 除法 是 Python 3 的 特性 ， 本 实例 随后 的 部 分 将 介绍 Python 2 的 除法 运算 符 。 
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3. 有 理 分 数 计算 
可 以 用 Fraction 对 象 和 整数 做 除法 。 这 将 使 结果 是 一 个 数学 上 精确 的 有 理 数 。 
(1) 创建 至 少 一 个 Fraction 值 。 


>>> from fractions import Fraction 
>>> total_seconds = Fraction(7385) 


(2) 在 计算 中 使 用 Fraction 值 ， 任 何 整数 都 将 被 提升 到 分 数 。 


>>> hours = total seconds / 3600 
>>> hours 
Fraction(1477, 720) 


(3) 如 有 必要 ， 将 确切 分 数 转换 为 浮 点 近似 值 。 


>>> round(float (hours) ,4) 
2.0514 


我 们 首先 为 总 秒 数 创建 了 一 个 Fraction 对 象 。 在 对 分 数 做 算术 运算 时 , Python 会 把 所 有 整数 都 
转换 为 分 数 ， 这 种 转换 意味 着 数学 运算 是 尽 可 能 精确 地 完成 的 。 










































































1.5.3 工作 原理 


Python 3 有 两 个 除法 运算 符 。 

口 真 除法 运算 符 / 总 是 试图 产生 一 个 浮 点 数 结 果 ， 即 使 这 两 个 操作 数 是 整数 。 从 这 个 角度 来 看 ， 
真 除法 运算 符 是 一 个 不 寻常 的 运算 符 。 其 他 所 有 运算 符 都 试图 保留 数据 的 类 型 。 当 应 用 于 整 
数 时 ， 真 除法 运算 会 产生 浮 点 数 结果 。 

口 截断 除法 运算 符 // 总 是 试图 产生 截断 的 结果 。 对 于 两 个 整数 操作 数 ， 结 果 是 截断 商 。 对 于 两 
个 浮 点 数 操作 数 ， 结 果 是 一 个 截断 的 浮 点 数 结果 。 


>>> 7358.0 // 3600.0 
2.0 


默认 情况 下 ，Python 2 只 有 一 个 除法 运算 符 。 对 于 仍 在 使 用 Python 2 的 程序 员 来 说 ， 可 以 通过 以 
下 方法 使 用 这 些 新 运算 符 : 
>>> from future import division 


这 个 导入 将 会 引入 Python 3 的 除法 规则 。 










































































1.5.4 延伸 阅读 


口 有 关 浮 点 数 和 小 数 之 间 的 选择 ， 请 参阅 1.4 节 。 
口 请 参阅 https://www.python.org/dev/peps/pep-0238/。 


1.6 重 与 不 可 变 的 字符 串 


如 何 重 写 不 可 变 的 字符 串 ” 字符 串 中 的 字符 不 可 更 改 ， 例 如 : 
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>>> title = "Recipe 5: Rewriting, and the Immutable String" 
>>> title[8]= '"' 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: 'str' object does not support item assignment 


上 面 的 方法 并 不 能 修改 字符 串 ， 那 么 怎么 才能 更 改 字符 串 呢 ? 
1.6.1 准备 工作 


假设 有 一 个 字符 串 : 


>>> title ="Recipe 5: Rewriting, and the Immutable String" 





























我 们 想 做 以 下 两 个 转换 : 

口 移 除 : 之 前 的 那 部 分 字符 串 ; 

口 把 标点 符号 替换 为 ， 将 所 有 字符 转换 为 小 写 。 

因为 不 能 直接 替换 字符 串 对 象 中 的 字符 , 所 以 必须 找到 一 些 替 代 方法 。 常 见 的 蔡 


























口 通过 切片 字符 串 和 连接 字符 串 来 创建 新 的 字符 串 。 
D 使 用 partition() 方 法 缩短 字符 串 。 
口 使 用 replace () 方 法 替换 某 个 字符 或 子 字符 串 。 





















































1.6.2 ”实战 演练 














代 方 法 如 下 所 示 。 


口 将 字符 串 扩 展 为 字符 列表 ， 然 后 再 连接 为 一 个 字符 串 。 这 种 方法 是 1.9 节 的 主题 。 


因为 不 能 在 原 位 更 新 一 个 字符 串 ， 所 以 必须 用 每 个 修改 后 的 结果 蔡 换 字符 串 变 量 中 对 应 的 对 象 。 



































语句 如 下 所 示 

some_string = some_string.method() 
其 至 可 以 使 用 : 

some_string = some_string[:chop_herel] 


我 们 将 讨论 关于 这 个 常见 主题 的 一 些 具体 变化 。 比 如 ,切片 字 符 串 ， 替 换 字符 








lL 中 的 单个 字符 ， 


或 者 应 用 整体 转换 ( blanket transformation )， 例 如 将 字符 串 转 换 为 小 写 。 我 们 还 将 研究 如 何 删除 字符 





串 中 多 余 的 下 划 线 。 

1. 切片 字符 串 

通过 切片 缩短 字符 串 的 方法 如 下 。 
(1) 查找 边界 。 


>>> colon position = title.index(':') 



































index 函数 定位 了 特定 的 子 字 符 串 并 返回 该 子 字符 串 的 位 置 。 如 果 该 子 字 符 串 不 存在 ,那么 将 会 





抛 出 异常 。title[colon_position] == ':;' 的 结果 始终 为 true。 


1.6 重 写 不 可 变 的 字符 串 17 





(2) 选择 子 字 符 串 。 


>>> discard text, post_ colon text = title[:colon position]l，title[rcolon position+1:] 
>>> discard text 

'Recipe 5' 

>>> post_colon text 


' Rewriting, and the Immutable String' 


使 用 切片 符号 来 显示 需要 选择 的 字符 串 的 start :end。 利 月 
赋值 给 变量 aiscaraq_text 和 post_colon_ text。 
我 们 也 可 以 使 用 partition () 和 手动 切片 来 切片 字符 呈 
>>> Pre_colon text, 


>>> pre_colon text 
'Recipe 5' 





























日 多 重 赋值 方法 ， 将 两 个 表达 式 分 别 








Uv 





。 查 找 边 界 并 分 割 字符 串 。 
: post colon text = 


= title.partition(':') 





>>> post_colon text 


' Rewriting, and the Immutable String' 








partition 国 数 返回 三 项 内 容 : 指定 字符 串 左边 的 子 字符 串 、 指 定 字符 串 和 指定 字符 串 右边 的 子 
字符 串 。 我 们 使 用 多 重 赋值 将 每 个 对 象 赋 给 不 同 的 变量 。 我 们 把 指定 的 字符 串 赋 值 给 _ 变 量 ， 因 为 这 
部 分 结果 将 被 忽略 。 对 于 那些 必须 提供 变量 的 地 方 ， 这 是 一 个 常见 的 习惯 用 法 ， 但 我 们 并 不 关心 如 何 
使 用 这 个 对 象 。 


2. 使 用 替换 更 新 字符 串 


可 以 使 用 replace () 删除 标点 符号 。 使 用 replace () 替换 标点 符号 时 , 把 结果 保存 回 原始 变量 。 
在 这 个 示例 中 原始 变量 为 post_colon_text 


Lo 








Ud 

































































>>> post_colon text = 
>>> post_colon text = 
>>> post_colon text 


post_colon text.replace(' ', '_') 
post_colon text.replace(',', '_') 


'_Rewriting and the Immutable String' 


上 述 代码 使 用 _ 替 换 了 两 种 标点 符号 。 利 用 将 在 第 2 章 中 介绍 的 for 语句 ， 可 以 把 这 种 方法 应 用 
到 所 有 标点 符号 。 


我 们 可 以 迭代 所 有 标点 符号 : 


>>> from string import whitespace, punctuation 
>>> for character in whitespace + punctuation: 
post_colon text = 












































post_colon text.replace(character, '_') 
>>> post_colon text 


'_Rewriting and the Immutable String' 


当 各 种 标点 符号 都 已 经 被 替换 时 ， 再 把 最 终 的 字符 串 赋 给 变量 post_colon_text。 
3. 使 字符 串 全 部 小 写 


另 一 个 转换 步骤 是 将 字符 串 更 改 为 全 部 小 写 。 与 前 面 的 示例 一 样 ， 我 们 把 结果 赋 给 原始 




















上 


























用 lower () 方 法 ， 然 后 将 结果 赋 给 原始 变量 


口 之 里 : 





>>> post_colon text = 


= post_colon text.lower!() 
4. 删除 多 余 的 标点 符号 


在 许多 情况 下 ， 可 能 还 需要 一 些 额 外 的 步 又 。 例 如 ， 可 以 使 月 








日 strip () 删除 开头 和 结尾 的 _: 








>>> post_colon text = post colon text.strip('_') 
在 某 些 情况 下 ， 因 为 有 多 个 连 在 一 起 的 标点 符号 ， 所 以 将 会 有 多 个 连续 的 _。 最 后 一 步 将 是 清理 
多 个 连续 的 _: 


>>> while ' ' in post_ colon text: 


Post_colon text = post colon text.replace(' _', 








we) 
该 示例 是 修改 字符 串 的 男 一 个 示例 ， 依 赖 于 将 在 第 2 章 介 绍 的 while 语句 。 








1.6.3 ”工作 原理 


严格 来 讲 ， 我们 无 法 原 位 修改 字符 串 ， 因 为 字符 串 的 数据 结构 是 不 可 变 的 。 但是， 可 以 将 一 个 新 
的 字符 串 赋值 给 原始 变量 。 这 种 技术 的 行为 与 原 位 修改 字符 串 相 同 。 

当 变 量 的 值 被 替换 时 ， 之 前 的 值 不 再 具有 任何 引用 并 且 被 垃圾 回收 。 可 以 通过 ia () 函数 来 追踪 
每 个 字符 串 对 象 : 


>>> id(post_colon text) 



























































下 





4346207968 

>>> post_colon text = post colon text.replace(' ','-') 
>>> id(post_ colon text) 

4346205488 








你 在 实际 操作 时 的 ID 号 可 能 与 示例 不 同 。 重 要 的 是 ， 原 来 赋 给 post_colon_text 的 字符 串 对 
象 有 一 个 DD 号 ， 而 赋 给 post_colon_tex 的 新 字符 串 对 象 的 ID 号 与 原来 的 不 同 。 这 说 明 它 是 一 个 
新 的 字符 串 对 象 。 

当 旧 的 字符 串 不 再 被 引用 时 ， 将 在 内 存 中 被 自动 删除 。 

我 们 利用 切片 符号 (slice notation ) 分 解 字符 串 。 切 片 有 两 部 分 : [start:end]l。 切 片 始 终 包 含 
起 始 索引 ， 从 不 包含 结束 索引 。 字 符 串 索 引 总 是 以 0 作为 第 一 个 元 素 的 索引 。 





























人 切片 中 元 素 的 索引 从 start 到 end-1， 这 有 时 被 称 为 半 开 区 间 。 


切片 也 可 以 理解 为 : 所 有 字符 的 索引 i 都 在 start < i< end 范围 内 。 

我 们 可 以 省 略 起 始 索引 或 结束 索引 ， 实 际 上 可 以 同时 省 略 两 者 。 各 种 可 用 的 切片 符号 如 下 。 

口 title[colon_position]: 对 于 单个 元 素 , 可 以 使 用 title.index(':') 找 到 :。 

口 title[:colon_position]: 省 略 起 始 索引 的 切片 。 从 第 一 个 索引 开始 ， 索 引 为 0。 

口 title[colon_position+1:]: 省 略 结束 索引 的 切片 。 它 结束 于 字符 串 的 末端 ， 或 者 说 第 

len (title) 个 索引 。 

口 titlie[:]: 由 于 同时 省 略 了 起 始 索 引 和 结束 索引 ， 因 此 这 个 切片 表示 整个 字符 串 。 实 际 上 ， 
这 个 切片 是 整个 字符 串 的 一 个 副本 ( copy )。 这 是 一 种 快速 简单 的 复制 字符 串 的 方法 。 


1.6.4 ”补充 知识 
在 Python 中 ,可 以 索引 像 字符 串 这 样 的 集合 (collection ) 的 功能 还 有 很 多 种 。 正 常 的 索引 从 字符 
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串 的 左 端 开始 索引 ，0 为 起 始 索引 。 另 一 种 索引 方法 采用 从 字符 串 右 端 起 始 的 负 索 引 。 
口 title[-1] 为 title 的 最 后 一 个 字符 g。 

D title[-2] 为 title 的 倒数 第 二 个 字符 n。 

Dtitle[-6:] 为 title 的 最 后 6 个 字符 string。 

在 Python 中， 还 有 很 多 方法 可 以 从 字符 串 中 选取 部 分 内 容 。 

Python 提供 了 许多 种 修改 字符 串 的 方法 。“Python 标准 库 ” 的 4.7 节 说 明了 多 种 变换 方法 。 字符 串 
方法 有 三 大 类 : 查找 字符 串 、 解 析 字 符 串 和 转换 字符 串 。 例 如 ，isnumeric() 方 法 可 以 显示 一 个 字符 
串 是 否 全 部 为 数字 。 示 例如 下 : 

>>> 'some WwWord' .isnumeric() 

False 


>>> '1298'.isnumeric() 
True 


解析 字符 串 的 方法 如 本 节 介 绍 的 partition() 方 法 ， 转 换 字符 串 的 方法 如 本 节 介 绍 的 1ower () 
方法 。 












































1.6.5 延伸 阅读 


口 1.9 节 将 介绍 按 列表 方式 修改 字符 串 的 方法 。 
口 有 时 数据 只 是 一 个 字 节 流 。 为 了 使 其 有 意义 ， 需 要 将 其 转换 为 字符 。1.12 节 将 讨论 这 个 主题 。 


1.7 ”使 用 正则 表达 式 解 析 字 符 串 


如 何 分 解 复杂 的 字符 串 ?” 如 果 有 复杂 、 环 手 的 标点 符号 怎么 办 ? 或 者 更 糟 ， 没有 标点 符号 , 但 必 
须 依靠 数字 的 模式 来 找到 有 意义 的 信息 ， 该 怎么 办 ? 


1.7.1 准备 工作 

分 解 复 杂 字 符 串 最 简单 的 方法 是 将 字符 串 归 纳 为 模式 (pattern )， 然 后 编写 描述 该 模式 的 正则 表 
达 式 。 

正则 表达 式 能 够 描述 的 模式 是 有 限 的 。 当 遇 到 HTML 、XML 或 JSON 等 深层 周 套 的 文档 时 , 可 能 
就 不 能 够 正常 使 用 正则 表达 式 了 。 

re 模块 包含 了 创建 和 使 用 正则 表达 式 所 需 的 各 种 类 和 函数 。 

假设 我 们 想 分 离 某 个 食谱 网 站 中 的 文本 。 每 行内 容 如 下 所 示 ; 


>>> ingredient = "Kumquat: 2 cups" 


我 们 想 分 离 原 料 和 度量 。 


1.7.2 ”实战 演练 
编写 和 使 用 正则 表达 式 的 步骤 如 下 。 
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(1) 概括 示例 。 示例 信息 可 以 概括 为 : 

(ingredient words): (amount digits) (unit words) 

我 们 用 摘要 替换 了 文本 ,摘要 分 为 两 个 部 分 : 信息 的 含义 和 信息 的 表示 形式 。 例 如 ,原料 用 文字 
表示 ， 数 量 用 数字 表示 。 

(2) 导入 re 模块 。 


>>> import re 


(3) 把 模式 改写 为 正则 表达 式 ( regular expression，RE ) 标记 。 
>>> pattern text =r'(?P<ingredient>\w+):\st(?P<amount>\d+)\s+t+(?P<unit>\w+)' 


我 们 替换 了 模式 中 的 表示 形式 。 例 如 ， 用 \w+ 替 换 words， 用 \d+ 替 换 digits; 用 \s+ 替 换 单个 
空格 ， 这 样 可 以 将 一 个 或 多 个 空格 用 作 标 点 符号 。 我 们 没有 处 理 冒号 ， 因 为 在 正则 表达 式 中 ,冒号 
匹配 其 本 身 。 

对 于 模式 中 的 每 个 字段 ,使 用 ?P<name> 作 为 名 称 来 标识 需要 提取 的 数据 。 我 们 没有 在 冒号 或 空 
格 周围 做 类 似 操 作 ， 因 为 不 想 要 这 些 字符 。 

正则 表达 式 使 用 了 大 量 \ 字 符 。 为 了 能 够 在 Python 中 正常 工作 ,我 们 总 是 使 用 原始 字符 串 。r' 前 
组 使 Python 忽略 \， 而 不 是 把 它们 替换 为 键盘 上 没有 的 特殊 字符 。 

(4) 编译 模式 。 

>>> pattern = re.compile(pattern text) 


(5) 使 用 模式 匹配 输入 文本 。 如 果 输 入 文本 匹配 模式 ， 将 获得 一 个 匹配 对 象 ， 匹 配对 象 显示 了 匹 
配 的 详细 信息 。 


>>> match = pattern.match(ingredient) 
>>> match is None 

False 

>>> match.groups() 

('Kumquat', '2', 'cups') 

我 们 从 字符 串 中 提取 了 一 个 包含 不 同 字段 的 元 组 。1.13 节 将 讨论 元 组 的 使 用 方法 。 
(6) 从 匹配 对 象 中 提取 已 命名 的 分 组 。 

>>> match.group('ingredient') 
'Kumquat' 

>>> match.group('amount') 

1 于 

>>> match.group('unit') 

"Cups 


正则 表达 式 中 的 (?P<name>.. .) 标 识 了 每 个 分 组 。 



























































































































































1.7.3 工作 原理 


正则 表达 式 可 以 描述 多 种 字符 串 模 式 。 
前 面 已 经 介绍 了 一 些 字符 类 : 
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口 \w 匹配 任意 字母 或 数字 (a 到 z, A 到 Z,，0 到 9); 
口 \d 匹配 任意 十 进 制 数字 ; 

口 \s 匹配 任意 空格 或 制 表 符 。 

这 些 类 还 有 相反 的 类 : 

口 \w 匹配 任意 不 是 字母 或 数字 的 字符 ; 

口 \D 匹配 任意 不 是 数字 的 字符 ; 

口 \s 匹配 任意 不 是 某 种 空格 或 制 表 符 的 字符 。 

许多 字符 匹配 自己 。 然 而 ， 某 些 字 符 具 有 特殊 意义 ， 因 此 我 们 使 用 \ 来 区 分 那些 特殊 意义 

口 + 作为 后 缀 表示 匹配 一 个 或 多 个 前 面 的 模式 。\dq+ 表 示 匹 配 一 个 或 多 个 数字 。 要 匹配 一 个 普通 
的 + 字符 ， 需 要 使 用 \+。 

口 * 作 为 后 级 表示 匹配 零 个 或 多 个 前 面 的 模式 。\w* 表 示 匹 配 零 个 或 多 个 字符 ,要 匹配 一 个 * 字 符 ， 
需要 使 用 \*。 
口 ?作为 后 级 表示 匹配 零 个 或 一 个 前 面 的 2 这 个 字符 还 在 其 他 地 方 使 用 ， 并且 具有 略微 不 
同 的 含义 。 在 (?P<name>...) 中 ，, 它 在 () 里 面 ， 用 于 定义 分 组 的 特殊 属性 。 

口 .表示 匹配 任意 单个 字符 。 要 匹配 具体 的 . | a 

可 以 使 用 [] 将 集合 中 的 元 素 括 起 来 ， 创 建 我 们 自己 独特 的 字符 集 : 


(?P<name>\w+) \s*[=:]\s*(?P<value>.*) 

这 个 表达 式 使 用 \w+ 来 匹配 任意 数量 的 字母 或 数字 字符 。 这 些 字符 将 被 收集 到 一 个 名 为 name 的 
组 中 。 

这 个 表达 式 使 用 \s* 来 匹配 一 个 可 选 的 空格 序列 。 

这 个 表达 式 匹 配 [= :1 集中 的 任何 字符 。 这 个 集中 的 两 个 字符 之 一 必须 存在 。 

这 an \s* 来 匹配 一 个 可 选 的 空格 序列 。 

最 后 ， 它 使 用 .* 匹 配 字符 串 中 的 其 他 内 容 。 这 些 内 容 将 被 收集 到 一 个 名 为 value 的 组 中 。 

可 以 用 这 个 表达 式 来 解析 字符 串 : 


size = 12 
weight: 14 


通过 灵活 地 使 用 标点 符号 , 可 以 使 程序 更 易 用 。 我 们 可 以 处 理 任意 数量 的 空格 , 将 = 或 :作为 分 隔 符 。 


1.7.4 补充 知识 
复杂 的 正则 表达 式 可 读 性 较 差 。 可 以 使 用 一 种 Python 风格 的 技巧 来 提高 正则 表达 式 的 可 读 性 : 


>>> ingredient pattern = re.compilel( 
.Ir'(?P<ingredient>\w+):\s+' # 原料 名 称 直 到 “:” 为 止 

... Ir'(?P<amount>\d+)\s+t! # 数量 ， 所 有 数字 直到 空格 为 止 

. r'(?P<unit>\w+)' # 单位 ， 字 母 数 字 字 符 

) 
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该 技巧 利用 了 3 个 语法 规则 : 
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口 直到 () 字符 匹配 ， 语 句 才 结束 ; 
口 相 邻 的 字符 串 字 面 量 自动 连接 为 一 个 长 字符 串 ; 
口 # 与 该 行 结尾 之 间 的 内 容 为 注释 ， 代 码 运行 时 将 忽略 注释 。 

我 们 在 正则 表达 式 的 重要 子 句 后 面 编写 了 Python 注释 。 这 样 有 助 于 了 解 代 码 的 功能 , 也 有 助 于 随 
后 诊断 问题 。 





























1.7.5 延伸 阅读 

















口 1.12 节 。 
口 关于 正则 表达 式 和 Python 正则 表达 式 的 图 书 非常 多 ， 比 如 Mastering Python Regular 
Expressionso 


1.8 使 用 "template" .format() 创 建 复杂 的 字符 串 


创建 复杂 字符 串 与 解析 复杂 字符 串 在 许多 方面 是 截然 相反 的 。 通 常 使 用 模板 以 及 替换 规则 将 数据 
转换 为 更 复杂 的 格式 。 


1.8.1 准备 工作 
假设 我 们 有 一 些 需要 转换 为 正确 格式 的 消息 数据 。 原 始 数据 如 下 所 示 ; 


>>> id = "IAD" 



























































>>> location = "Dulles Int1 Airport" 
>>> max_ temp = 32 
>>> min temp = 13 


>>> precipitation = 0.4 


目标 数据 格式 如 下 所 示 : 


IAD : Dulles Intl Airport : 32 / 13 / 0.40 





1.8.2 ”实战 演练 


(1) 根据 预期 结果 创建 模板 字符 串 ， 将 所 有 数据 项 替换 为 {} 占 位 符 。 在 每 个 占 位 符 内 ， 放 置 数据 
项 的 名 称 。 

'{id} : {location} : {max temp} / {min temp} / {precipitation}' 

(2) 在 模板 字符 串 每 个 数据 项 的 占 位 符 中 添加 :data type 信息 。 基 本 数据 类 型 代码 如 下 : 
口 s 为 字符 串 
口 a 为 十 进 制 数 
D £ 为 浮 点 数 
添加 类 型 代码 后 的 模板 字符 串 如 下 所 示 : 


'{id:s} : {location:s} : {max temp:d} / {min temp:d} / {precipitation:f}' 



































1.8 ”使 用 "template".format() 创 建 复杂 的 字符 






































(3) 添加 必要 的 长 度 信息 。 长 度 信息 不 是 必须 的 ， 在 某 些 情况 下 ， 甚 至 不 需要 长 度 信息 。 然 而 ， | 




































































在 本 例 中 ,长度 信息 确保 每 个 消息 具有 一 致 的 格式 。 长 度 信息 添加 在 类 型 代码 之 前 。 对 于 字符 串 
进 制 数字 ， 长度 信息 的 格式 如 19s 或 39。 对 于 浮 点 数 ， 长度 信息 的 格式 如 5.2f， 该 长 度 信息 指定 





和 十 
了 








两 部 分 内 容 : 总 长 度 为 5 个 字符 ， 其 中 2 个 在 小 数 点 的 右边 。 整 个 模板 字符 串 如 下 所 示 : 


'{id:3d} : {location:19s} : {max temp:3d} / {min temp:3d} / {precipitation:5.2f}' 














(4) 使 用 字符 串 的 format () 方 法 创建 最 终 的 字符 串 。 


>>> '{id:3s} : {location:19s} : {max temp:3d} / {min temp:3d} / 
{precipitation:5.2f}'.format( 

. id=id, location=location, max_ temp=max_temp, 

. min temp=min temp, precipitation=precipitation 

| 
'IAD : Dulles Intl Airport : 32 / 13/ 0.40' 



































我 们 通过 模板 字符 串 的 formate () 方 法 按照 名 称 提供 所 有 变量 。 在 某 些 情况 下 ， 





变量 构建 一 个 字典 对 象 。 这 时 ， 可 以 使 用 format_map () 方 法 : 


>>> data = dict( 
. id=id, location=location, max temp=max_temp, 
. min temp=min temp, precipitation=precipitation 
| 
>>> '{id:3s} : {location:19s} : {max temp:3d} / {min temp:3d} / 


{precipitation:5.2f}'.format map (data) 
'IAD : Dulles Intl Airport : 32 / 13/ 0.40' 


第 4 章 将 讨论 字典 。 
内 置 的 vars () 函数 可 以 构建 一 个 所 有 局 部 变量 的 字典 : 








>>> '{id:3s} : {location:19s} : {max temp:3d} / {min temp:3d} / 
{precipitation:5.2f}'.format map( 
vars() 
Sie 
'IAD : Dulles Int1l Airport : 32 / 13/ 0.40' 








vars () 函数 可 以 便捷 地 自动 构建 字典 。 


1.8.3 工作 原理 


字符 串 的 format () 方 法 和 format_map () 方 法 都 可 以 组 装 相 对 复杂 的 字符 串 。 





























可 能 需要 使 用 
































这 些 方 法 的 基本 功能 是 根据 关键 字 参 数 的 名 称 或 字典 中 的 键 将 数据 插入 到 字符 串 





























也 可 以 按 位 置 插 入 字符 串 ， 可 以 使 用 位 置 编 号 替代 名 称 ， 例 如 ， 使 用 类 似 {0:3s} 的 格式 规范 作为 


format () 方 法 的 第 一 个 位 置 参数 。 














前 面 已 经 介绍 了 s、d、f£ 等 三 种 格式 规范 ， 除 此 之 外 ,还 有 很 多 其 他 格式 规范 ， 首 





“Python 标准 库 ” 的 6.1.3 节 。 常 用 的 格式 规范 如 下 。 
口 b 用 于 二 进 制 数 ， 基 数 为 2。 












































细 信 息 请 参阅 





口 < 用 于 Unicode 字 符 。 值 必须 是 已 经 转换 为 字符 的 数字 。 通 常用 十 六 进 制 数 来 表示 ,例如 0x2661 
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到 0x26660。 

口 a 用 于 十 进 制 数 。 

口 E 和 e 用 于 科学 记 数 法 ,使 用 6.626E-34 还 是 6.626e-34 取决 于 使 用 的 是 EE 字符 还 是 e 字符 。 

口 F 和 f 用 于 浮 点 数 。 对 于 非 数字 ，f 格式 显示 为 小 写 nan, F 格式 显示 为 大 写 NAN。 

口 G 和 g 为 通用 格式 。 该 格式 自动 在 E 和 F (或 e 和 f) 之 间 切 换 ， 以 保持 输出 在 给 定 的 大 小 范 
于 内 。 格 式 20 .5G 表示 最 多 20 位 数字 使 用 格式 显示 。 较 大 的 数字 将 使 用 E 格式 。 

口 n 用 于 特定 语言 环境 的 十 进 制 数 。 根 据 当前 的 区 域 设 置 搬入 ,或 . 。 默 认 语言 环境 可 能 没有 定 
义 千 位 分 隔 符 。 更 多 信息 请 参阅 locale 模块 。 

口 o 用 于 八进制 数 ， 基 数 为 8。 

口 s 用 于 字符 串 。 

口 x 和 x 用 于 十 六 进 制 数 ， 基 数 为 16。 数 字 包 括 大 写 A-F 和 小 写 a-f， 具 体 取决 于 使 用 的 是 x 
格式 符 还 是 x 格式 符 。 

口 $ 用 于 百分比 。 数 字 乘 以 100， 并 包含 %。 

另外 ,还 有 许多 可 以 用 于 这 些 格式 规范 的 前 级 。 最 常见 的 前 级 是 长 度 , 例如 ,使 用 {name:5d} 放 


入 一 个 5 位 的 数字 。 其 他 前 缀 如 下 。 
口 填充 和 对 齐 : 

字符 串通 常 左 对 齐 。 还 可 以 使 用 <、> 或 ^ 来 改变 对 齐 方 式 ， 这些 符号 将 强制 左 对 齐 、 右 对 齐 或 

居中 对 齐 。 特 殊 的 = 对 齐 方式 在 一 个 前 导 符号 后 进行 填充 。 

口 符号 : 默认 规则 是 在 需要 的 位 置 前 置 一 个 负 号 。 可 以 用 + 在 所 有 数字 前 添加 一 个 符号 ， 用 - 仅 

在 负数 前 添加 一 个 符号 ， 用 空格 在 正 数 前 添加 一 个 空格 而 不 是 加 号 。 在 科学 记 数 法 格式 的 输 





出 中 ， 必 须 使 


可 以 指定 一 个 特定 的 填充 字符 〈 默认 值 为 空格 ) 和 对 齐 方式 。 数 字 通 常 右边 齐 ， 


















































用 {value: 5.3f}。 空 格 确保 为 符号 留 下 空间 ， 保 证 所 有 小 数 点 整齐 排列 。 

















口 替换 形式 : 可 以 使 用 # 获 得 替换 形式 。 我 们 可 能 将 前 级 {0:#x} 、{0:#o0}、{0:#b} 用 于 十 六 进 
制 、 八 进 制 或 二 进 制 值 。 带 前 绥 的 数字 的 形式 如 0xnnn 、0onnn 或 0bnnn。 默 认 省 略 两 个 字 


口 


口 


可 用 的 





在 


符 前 缀 。 
































前 导 零 : 可 以 用 0 在 数字 前 填充 前 导 零 。 例 如 ，{codqe:08x} 将 产生 一 个 十 六 进 制 值 ， 并 通过 
前 导 零 将 其 填补 为 8 个 字符 。 
宽度 和 精度 : 对 于 整数 值 和 字符 串 ,只 提供 了 宽度 。 对 于 浮 点 值 ,通常 提供 width.precision。 


转换 只 有 三 种 。 


AAA 




















D+ 


站 克 牌 的 花色 图 案 。 





























有 时 候 , 我 们 将 不 使 用 {name :format} 规 范 。 有 时 候 , 我 们 需要 使 用 {name!conversion} 规 范 。 





口 {name!r} 显 示 由 repr (name) 生 成 的 表示 ( representation )。 
口 {name!s} 显 示 由 str (name) 生 成 的 字符 串 值 。 
口 fname!a} 显 示 由 ascii(name) 生 成 的 ASCII 值 。 








第 6 章 中 ， 我 们 将 充分 利用 {name !r} 格 式 规范 来 简化 相关 对 象 信息 的 显示 。 











一 一 译 者 注 





1.8.4 补充 知识 
一 种 方便 的 调试 工具 如 下 所 示 : 


print ("some variable={some variable!r}".format map (vars())) 


不 带 ee vars () 函数 收集 所 有 局 部 变量 并 转换 为 一 个 映射 。 我 们 把 该 映射 作为 参数 提供 
给 format_map ( i namelr} 来 显示 局 部 变量 的 各 种 对 象 的 细节 。 
在 类 定义 中 ， Ce self) 的 技术 。 下 面 的 示例 使 | 了 第 6 章 的 相关 知识 。 


>>> class Summary : 






























































def _ init (self, id, location, min temp, max temp, precipitation): 
self.id= id 
self.location= location 
Self.min temp= min temp 
Self.max temp= max_ temp 
Self.precipitation= precipitation 
def _ str (self): 
return '{id:3s} : {location:19s} : {max temp:3d} / {min temp:3d} / 
Die llation: 5.2f}'.format map( 
vars (self) 
Ws ) 
>>> s= Summary('IAD', 'Dulles Intl Airport', 13, 32, 0.4) 
>>> print(s) 
IAD : Dulles Intl Airport : 32 / 13/ 0.40 


类 定义 中 包含 一 个 __str__() 方 法 ,该 方法 依靠 vars (self) 创建 一 个 对 象 的 属性 字典 。 
1.8.5 延伸 阅读 
口 字符 串 格 式 化 方法 的 细节 请 参阅 “Python 标准 库 ” 的 6.1.3 节 。 


1.9 通过 字符 列表 创建 复杂 的 字符 串 


如 何 对 不 可 变 的 字符 串 进 行 复杂 的 更 改 ? 可 以 用 单个 独立 的 字符 组 装 字符 串 吗 ? 

在 大 多 数 情 况 下 ， 前 面 的 实例 已 经 为 我 们 提供 了 一 系列 创建 和 修改 字符 串 的 工具 。 不 过 解决 字符 
串 操作 问题 的 方法 还 有 很 多 ， 本 实例 将 介绍 使 用 列表 对 象 创建 字符 串 的 方法 。 这 种 方法 与 第 4 章 的 一 
些 实例 相 吻 合 


1.9.1 准备 工作 
需要 重新 排列 的 字符 串 如 下 : 


>>> title = "Recipe 5: Rewriting an Immutable String" 
字符 串 需 要 进行 以 下 两 个 转换 ; 

口 移 除 :之 前 的 那 部 分 字符 串 ; 
口 把 标点 符号 替换 为 _， 将 所 有 字符 转换 为 小 写 。 



































tun 
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本 实例 需要 使 用 string 模块 : 

>>> from string import whitespace, punctuation 

string 模块 有 两 个 重要 的 常量 。 

口 string.whitespace 列 出 了 所 有 常用 的 空白 字符 ， 包 括 空格 和 制 表 符 。 

口 string.punctuation 列 出 了 常见 的 ASCII 标点 符号 。Unicode 拥有 大 量 标点 符号 ， 可 以 根 
据 区 域 设置 来 进行 配置 。 























1.9.2 ”实战 演练 


字符 串 可 以 分 解 为 列表 。 第 4 章 将 更 深入 地 介绍 列表 。 

(1) 将 字符 串 分 解 为 列表 对 象 。 

>>> title list = list(title) 

(2) 查找 分 割 字 符 。 列 表 的 index () 方 法 与 字符 串 的 indqex () 方 法 具有 相同 的 语义 ， 它 根据 给 定 
的 值 找 到 相应 的 位 置 。 


>>> colon position = title list.index(':') 


(3) 删除 不 再 需要 的 字符 。gel 语句 可 以 从 列表 中 移 除 元 素 。 列 表 是 可 变 的 数据 结构 。 


>>> del title list[:colon position+1] 


我 们 不 需要 仔细 处 理 原始 字符 串 中 的 有 用 部 分 。 可 以 从 列表 中 删除 元 素 。 
(4) 逐个 位 置 蔡 换 标 点 符号 。 在 本 示例 中 ， 使 用 for 语句 来 访问 字符 串 的 各 个 索引 。 
>>> for position in range(len(title list)): 


if title list[position] in whitespace+punctuation: 
title list[position]= '_' 


(5) 表达 式 range(len(title_list)) 生 成 从 0 到 1len(title_list)-1 的 所 有 整数 。 这 样 就 
可 以 确保 position 的 值 是 列表 中 的 每 个 值 的 索引 。 连接 字符 列表 , 创建 新 字符 串 。 在 连接 字符 串 时 ， 
使 用 长 度 为 0 的 字符 串 '' 作 为 分 隔 符 看 起 来 似乎 有 些 奇怪 。 但 是 ， 这 种 方法 十 分 有 效 。 


>>> title = ''.join(title list) 
>>> title 
'_Rewriting an Immutable String' 


我 们 把 结果 字符 串 赋 值 给 了 原始 变量 。 我 们 不 再 需要 原始 变量 引用 的 原始 字符 串 对 象 ， 该 对 象 将 
从 内 存 中 删除 。 新 的 字符 串 对 象 替 换 了 原始 变量 的 值 。 
































































































































1.9.3 工作 原理 


这 是 一 种 表示 形式 上 的 变化 。 由 于 字符 串 是 不 可 变 的 ， 因 此 我 们 不 能 更 新 它 。 但是， 可 以 将 其 转 
换 为 可 变形 式 ， 本 实例 中 的 字符 串 被 转换 为 了 列表 。 我们 可 以 对 可 变 的 列表 对 象 进行 任何 更 改 。 更 改 
完成 后 ， 可 以 将 表示 形式 由 列表 改 回 字 符 串 。 
字符 串 提 供 了 许多 列表 没有 的 功能 。 例 如 ,我 们 不 能 根据 将 字符 串 转换 为 小 写 的 方法 直接 将 列表 













































































1.10 使 用 键盘 上 没有 的 Unicode 字符 27 





转换 为 小 写 。 
字符 串 与 列表 的 区 别 如 下 。 

















口 字符 串 是 不 可 变 的 , 所 以 操作 速度 非常 决 。 字 符 串 专注 于 Unicode 字符 。 可 以 使 用 字符 串 作为 











映射 中 的 键 和 集中 的 元 素 ， 因 为 字符 串 的 值 是 不 可 








变 的 。 








口 列表 是 可 变 的 ， 操 作 较 慢 。 列 表 可 以 容纳 任何 类 型 
集中 的 元 素 ， 因 为 值 可 能 会 改变 。 





4 的 元 素 。 不 能 使 用 列表 作为 映射 中 的 键 或 

















字符 串 和 列表 都 是 特殊 类 型 的 序列 。 因 此 ， 它 们 具有 许多 共同 的 特征 ， 比 如 共享 基本 的 元 素 索引 
和 切片 功能 。 类 似 于 字符 串 ， 列 表 同 样 支持 字符 串 使 用 的 负 索 引 值 ，1ist [-1] 表 示 一 个 列表 对 象 中 














的 最 后 一 个 元 素 。 
第 4 章 将 讨论 可 变数 据 结 构 。 





1.9.4 补充 知识 


























旦 使 用 字符 列表 代替 了 字符 串 , 就 不 能 再 使 用 字符 串 处 理 方法 。 许 多 列表 处 理 技术 都 可 以 使 用 。 





























二 








除了 能 够 从 列表 中 删除 元 素 之 外 ， 还 可 以 添加 元 素 ， 或 者 使 用 另 一 个 列表 扩展 列表 ， 或 者 向 列表 中 捕 


人 字符 。 


我 们 也 可 以 稍微 改变 视角 ， 讨 论 一 下 用 字符 串 列 表 蔡 代 字 符 列 表 。'…' .join (1ist) 不 但 支持 字 








符 列 表 ， 也 支持 字符 串 列 表 。 例 如 : 


>>> title list.insert(0, 'prefix') 
>>> ''.join(title list) 
'prefix Rewriting an Immutable String' 


title_list 对 象 变 成 了 一 个 包含 字符 串 prefix 和 30 个 独立 字符 的 列表 。 








1.9.5 延伸 阅读 




















口 将 字 节 转换 为 字符 串 的 实例 ， 请 参阅 1.12 节 。 


1.10 ”使 用 键盘 上 没有 的 Unicode 字符 





口 使 用 字符 串 的 内 置 方 法 处 理 字符 串 的 实例 ， 请 参阅 1.6 节 。 
口 创建 字符 串 并 将 其 转换 为 字 节 的 实例 ， 请 参阅 1.11 节 。 


一 个 键盘 可 能 有 将 近 100 个 独立 按键 ， 其 中 字母 、 数 字 和 标点 符号 按键 不 到 50 个 ， 还 有 至少 12 














个 功能 键 。 另 外 ,键盘 还 有 各 种 修饰 键 ， 它 们 需要 与 其 他 按键 结合 使 用 。 常 见 的 修饰 键 有 Shift 、Ctrl、 


Option 和 Command。 


大 多 数 操作 系统 都 支持 简单 的 组 合 键 ， 这 些 组 合 键 可 以 创建 100 个 左右 的 字符 ， 更 复杂 的 组 合 键 
可 能 会 创建 另外 100 个 不 常见 的 字符 ， 但 这 离 覆 盖世 界 上 的 数 百 万 字符 还 差 得 很 远 。 而 且 ， 在 计算 机 
字体 里 还 有 图 标 、 表 情 符号 和 装饰 符号 ， 又 如 何 得 到 这 些 符 号 呢 ? 
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1.10.1 准备 工作 


Python 默认 支持 Unicode。 可 用 的 独立 Unicode 字符 有 几 百 万 个 。 

有 关 所 有 可 用 的 Unicode 字符 ， 请 参阅 https://en.wikipedia.org/wiki/List_of Unicode characters 和 
http:/www.unicode.org/charts/。 

我 们 需要 Unicode 字符 的 编码 ， 也 希望 得 到 Unicode 字符 的 名 称 。 

很 多 计算 机 中 的 字体 可 能 在 设计 时 就 没有 考虑 提供 这 些 字符 , 特别 是 Windows 计算 机 中 的 字体 可 
能 无 法 显示 这 些 Unicode 字符 。 有 时 使 用 Windows 命令 来 修改 为 内 码 表 (codepage ) 65001 是 很 有 必 
要 的 : 

chcp 65001 


Linux 和 Mac OS X 几乎 没有 关于 Unicode 字符 的 问题 。 















































1.10.2 ”实战 演练 


Python 使 用 转 义 序列 ( escape sequence ) 扩展 普通 字符 。 通 过 转 义 序列 我 们 可 以 输入 海量 的 
Unicode 字符 。 转 义 序列 以 \ 开 始 ,下 一 个 字符 说 明 Unicode 字符 如 何 表示 。 找 到 所 需 的 字符 ， 获 取 名 
称 或 编码 。 编 码 总 是 以 十 六 进 制 形式 出 现 ， 例 如 U+2680。 这 个 编码 的 名 称 可 能 是 DIE FAcE-1。 可 
以 使 用 \unnnn 格式 将 编码 填充 为 4 位 数 ， 或 者 使 用 可 拼写 的 名 称 \N {name}。 如 果 编 码 超 过 4 位 数 ， 
可 以 使 用 \Unnnnnnnn 格式 将 编码 扩展 为 8 位 数 。 


>>> 'You Rolled \u2680' 

"You Rolled 口 

>>> 'You drew \U0001PF000 

'You drew 东 !' 

>>> 'Discard \N{MAHJONG TILE RED DRAGON}' 
'Discard 中 


如 上 例 所 示 , 我 们 可 以 在 Python 输出 中 包含 各 种 字符 。 但 是 , 在 字符 串 中 添加 \ 时 , 需要 使 用 \\。 
例如 ， 在 使 用 Windows 文件 名 时 ， 可 能 需要 采用 这 种 方式 处 理 \。 








































































































1.10.3 工作 原理 


Python 内 置 使 用 Unicode。 我 们 可 以 直接 使 用 键盘 输入 的 约 128 个 字符 都 有 便于 使 用 的 Unicode 
内 部 编码 。 
在 输入 'HELLO ' 时 ，Python 将 其 视 为 下 列 代码 的 简写 : 
'\u0048\u0045\u004c\u004c\u004f' 

如 果 想 使 用 那些 键盘 上 没有 的 字符 ， 那 么 只 能 通过 它们 的 编码 来 进行 标识 。 
当 字 符 串 被 Python 编译 时 , \uxx、\Uxxxxxxxx 和 \N{name} 都 将 被 适当 的 Unicode 字符 所 代替 。 
如 果 其 中 有 一 些 语法 错误 ,例如 \N{name 没有 使 用 } 闭 合 ,， 那么 Python 内 部 语法 检查 会 立即 报错 。 
在 1.7 节 中 ,我们 注意 到 正则 表达 式 使 用 了 大 量 的 \， 我们 不 希望 Python 编译 器 对 它们 进行 处 理 ， 
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所 以 在 正则 表达 式 字符 串 中 使 用 <' 前缀 来 防止 \ 被 当 作 转 义 符 ， 进 而 被 转化 为 其 他 字符 。 

如 果 需 要 在 正则 表达 式 中 使 用 Unicode 怎么 办 ?” 为 了 解决 这 个 问题 需要 在 正则 表达 式 中 使 用 \\， 
例如 '\\w+t[\u2680\u2681\u2682\u2683\u2684\u2685]\\d+'。 我 们 省 略 了 字符 串 前 面 的 r' 前 
绥 , 在 正则 表达 式 中 多 用 了 一 倍 的 \。 我 们 使 用 的 \uxxxx 格式 是 Unicode 字符 模式 的 一 部 分 。Python 
编译 器 将 \uxxxx 替换 为 Unicode 字符 ， 将 \\ 蔡 换 为 \。 


Python 将 以 规范 形式 显示 >>> 提 示 符 中 的 字符 串 。 虽 然 可 以 使 用 ' 或 "作为 字符 串 分 隔 
符 ， 但 是 Python 更 喜欢 使 用 ' 。Python 通常 不 显示 原始 字符 串 ， 而 是 将 所 有 必要 的 


PD 转 义 序列 转换 为 字符 串 : 
Se A 


下 
我 们 提供 了 一 个 原始 形式 的 字符 串 ， 但 是 Python 将 其 显示 为 规范 形式 。 























1.10.4 延伸 阅读 


D 1.11 节 和 1.12 节 将 讨论 如 何 把 Unicode 字符 转换 为 字 节 序列 以 便 写 和 文件， 也 将 讨论 如 何 把 
文件 中 或 从 网 站 下 载 的 字 节 转换 为 Unicode 字符 ， 以 便 对 它们 进行 处 理 。 

口 如 果 对 历史 感 兴趣 ， 可 以 了 解 一 下 ASCI、EBCDIC 以 及 其 他 传统 的 字符 编码 ， 请 参阅 
http://www.unicode.org/charts/。 
































1.11 编码 字符 串 一 一 创建 ASCII 和 UTF-8 字 节 


计算 机 上 的 文件 都 是 由 字 节 组 成 的 ， 当 我 们 在 网 上 上 传 或 下 载 文件 时 ， 通 信也 是 基于 字 节 的 。 
个 字 节 只 有 256 个 不 同 的 值 ， 而 Python 字符 是 Unicode 字符 ，Unicode 字符 的 数量 远 不 止 256 个 。 
如 何 将 Unicode 字符 映射 到 用 于 写 和 文件 或 传输 文件 的 字 节 呢 ? 


1.11.1 准备 工作 


以 前 ， 一 个 字符 占用 一 个 字 节 。Python 中 的 字 节 (byte ) 使 用 ASCII 编码 方案 ， 这 样 有 时 容易 混 
消 字 节 和 Unicode 字符 串 。 

Unicode 字符 通常 被 编码 为 字 节 序列 。 这 些 字符 中 既 有 很 多 标准 编码 ， 也 有 很 多 非 标准 编码 。 

另外 ， 还 有 一 些 编码 只 适用 于 Unicode 字符 的 某 个 小 子 集 。 应 当 尽 量 避 免 这 种 情况 ， 但 是 在 一 些 
特殊 情况 下 ， 需 要 使 用 编码 子 集 方案 。 

除非 有 特殊 的 需求 ， 否 则 应 当 一 直 使 用 UTF-8 编码 Unicode 字符 。 这 种 方法 的 主要 优点 在 于 ， 它 
是 英语 和 许多 欧洲 语言 中 的 拉丁 字母 的 简洁 表现 形式 。 

有 时 候 ， 某 些 互联 网 协议 需要 使 用 ASCII 字符 编码 。 这 是 一 个 需要 注意 的 特殊 情况 ， 因 为 ASCII 
编码 只 能 处 理 一 小 部 分 Unicode 字符 。 
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1.11.2 ”实战 演练 
Python 通常 使 用 操作 系统 的 默认 编码 处 理 文件 和 互联 网 通信 , 每 个 操作 系统 的 处 理 细节 各 不 相同 。 
(1) 使 用 PYTHONIOENCODING 环境 变量 进行 通用 设置 ,在 Python 之 外 设置 这 个 变量 可 以 保证 在 操 
作 系 统 范 围 内 使 用 特定 的 编码 。 环 境 变量 的 设置 方法 如 下 : 


export PYTHONIOENCODING=UTF-8 




























































































(2) 运行 Python。 

python3.5 

(3) 有 时 候 在 脚本 中 打开 文件 需要 一 些 特殊 设置 。 第 9 章 将 再 次 讨论 这 个 问题 。 以 给 定 的 编码 方 
式 打开 文件 、 读 取 文 件 或 者 向 文件 中 写 人 Unicode 字符 。 


>>> with open('some file.txt', 'w', encoding='utf-8') as output : 

a print( 'You drew \U0O001F000', file=output ) 

>>> with open('some file.txt', 'r', encoding='utf-8') as input: 
text = input.read() 







































































>>> text 

You drew 0' 

我 们 也 可 以 手动 编码 字符 。 在 极 少数 的 情况 下 ， 需 要 以 字 节 模式 打开 一 个 文件 ; 如 果 使 用 wb 模 
式 ， 那 么 需要 使 用 手动 编码 。 

>>> string bytes = 'You drew \U0001F000'.encode('utf-8') 


>>> string bytes 
b'You drew \xf0\x9f\x80\x80' 


字 节 序列 (\xf0\x9f\x80\x80 ) 被 用 来 编码 Unicode 字符 U+1F000， 即 东 。 





1.11.3 工作 原理 


Unicode 定义 了 许多 编码 方案 ， 其 中 UTF-8 是 最 流行 的 ， 其 他 编码 方案 还 有 UTF-16 和 UTF-32。 
编码 方案 名 称 中 的 数字 是 该 方案 中 每 个 字符 的 位 数 。 一 个 包含 1000 个 UTF-32 编码 字符 的 文件 将 有 
4000 字 节 。 一 个 包含 1000 个 UTF-8 编码 字符 的 文件 可 能 只 有 1000 字 节 , 具体 的 字 节 数 取决 于 字符 的 
精确 组 合 ， 因 为 在 UTF-8 编码 方案 中 ， 字 符 编码 大 于 U+007F 的 字符 需要 使 用 多 个 字 节 表 示 。 

不 同 的 操作 系统 有 各 自 的 编码 方案 ，Mac OS X 文件 通常 使 用 MacRoman 或 1atin-1 编码 ， 
Windows 文件 可 能 使 用 cP1252 编码 。 

这 些 编码 方案 的 关键 在 于 可 以 映射 到 Unicode 字符 的 字 节 序列 。 另 一 种 方法 是 把 每 个 Unicode 字 
符 映 射 到 一 个 或 多 个 字 节 。 理 想 情 况 下 ， 所 有 的 Unicode 字符 都 被 编码 。 实 际 上 ， 其 中 一 些 编码 方案 
是 不 完整 的 。 编 码 方案 最 环 手 的 问题 在 于 避免 写 人 多 余 的 字 节 。 

古老 的 ASCII 编码 只 能 将 大 约 250 个 Unicode 字符 表示 为 字 节 。 创建 一 个 不 能 使 用 ASCII 方案 编 
码 的 字符 串 非 常 容易 。 


>>> 'You drew \U0001F000'.encode('ascii') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 





















































































































































1.12 ”解码 字 节 





如 何 根 据 字 节 获 得 正确 的 字符 31 





UnicodeEncodeError: 'ascii' codec can't encode character '\U0001f000' in position 9 : 
ordinal not in range(128) 


当 我 们 无 意 中 选择 错误 的 编码 方式 打开 文件 时 ， 就 可 以 看 到 类 似 上 面 的 错误 。 在 遇 到 这 样 的 错误 
时 ， 需 要 改变 处 理 过 程 ， 选 择 一 个 更 适当 的 编码 。 理 想 情况 下 使 用 UTF-8。 












































1.11.4 ”延伸 阅读 


口 创建 字符 串 的 方法 有 许多 种 。 创 建 复 杂 的 字符 串 请 参阅 1.8 节 和 1.9 节 ， 其 思路 是 先 创建 一 个 
复杂 的 字符 串 ， 然 后 将 字符 串 编码 为 字 节 。 

口 UTF-8 编码 的 更 多 信息 ， 请 参阅 https://en.wikipedia.org/wiki/UTF-8。 

口 Unicode 编码 的 更 多 信息 ， 请 参阅 http://unicode.org/faq/utf_bom.html。 


1.12 解码 字 节 一 一 如 何 根据 字 节 效 得 正确 的 字符 


如 何 处 理 没有 正确 编码 的 文件 ”如 何 处 理 使 用 ASCII 编码 的 文件 ? 

从 互联 网 上 下 载 的 文件 几乎 都 是 以 字 节 而 不 是 字符 为 单位 的 。 如 何 从 字 节 流 中 解码 字符 呢 ? 

另外 , 在 使 用 subprocess 模块 时 , 操作 系统 命令 的 结果 也 是 以 字 节 为 单位 的 。 如 何 把 字 节 流转 
换 为 正确 的 字符 呢 ? 

本 实例 的 大 部 分 内 容 与 第 9 章 相 关 。 之 所 以 在 本 章 介绍 这 个 实例 ， 是 因为 它 是 1.11 节 中 实例 的 
反例 。 


1.12.1 准备 工作 


假设 我 们 对 近海 海洋 天 气 预报 感 兴趣 ， 或 许 是 因为 自己 拥有 一 艘 大 帆船 ， 或 许 是 因为 好 朋友 有 一 
艘 大 帆船 ， 为 了 躲避 台风 正在 离开 加 勒 比 海 的 切 萨 皮 克 湾 。 

弗吉尼亚 韦 克 菲尔德 的 国家 气象 服务 办 公 室 ( National Weather Services ) 有 什么 特别 的 警报 吗 ? 
警报 信息 显示 在 http:Wwww.nws.noaa.gov/view/national.php?prod=SMVW&sid=AKQ 上 。 

可 以 通过 Python 的 urllib 模块 下 载 这 些 警 报信 息 : 


>>> import urllib.request 










































































































































































>>> warnings uri= 'http://www.nws.noaa.gov/view/national .php?prod=SMW&sid=AKQ' 
>>> with urllib.request.urlopen(warnings uri) as source: 
warnings_ text= source.read() 


或 者 使 用 curl 或 wget 等 程序 获取 这 些 信息 : 


curl -0O http://www.nws .noaa.gov/view/national .php?prod=SMW&sid=AKQ 
mv national.php\?prod\=SMW AKQ.html 


但 是 curl 生成 了 一 个 看 起 来 很 别扭 的 文件 名 ， 我 们 需要 重 命名 这 个 文件 。 
forecast_text 的 值 是 字 节 流 ， 而 不 是 字符 串 。forecast_text 的 起 始 部 分 如 下 所 示 : 


>>> warnings text[:80] 
b'<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.or' 
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因为 forecast_text 起 始 于 b' 前 级 ， 
能 使 用 UTF-8 编码 ， 这 意味 着 一 些 字 各 











所 以 它 是 字 节 而 不 是 Unicode 字符 。forecast_text 可 


隆 可 能 显示 为 怪异 的 \ xnn 转 义 序列 而 不 是 字符 ， 而 我 们 需要 
的 结果 通常 是 正确 的 字符 。 















































字 节 和 字符 串 


使 用 可 打印 字符 显示 。 
人 b'hello' 是 一 个 五 字 节 值 的 缩写 。 字 母 选 择 使 用 旧 的 ASCII 编码 方案 。 从 0x20 到 
0xfe 的 许多 字 节 值 将 显示 为 字符 。 
这 让 人 很 困惑 。b' 前 组 提示 我 们 关注 的 是 字 节 ， 而 不 是 相应 的 Unicode 字符 。 


通常 ， 字 节 的 行为 有 点 类 似 于 字符 串 。 有 时 我 们 可 以 直接 处 理 字 节 ,但 是 大 多 数 情况 下 ， 我 们 希 
望 解码 字 节 并 创建 正确 的 Unicode 字符 。 


1.12.2 ”实战 演练 

(1) 尽 可 能 确定 编码 方案 。 为 了 解码 字 节 并 创建 正确 的 Unicode 字符, 需要 知道 字 节 采 上 
案 。 例 如 ，XML 文档 就 给 出 了 提示 : 

<?xml version="1.0" encoding="UTF-8"?> 


浏览 网 页 时 ， 首 部 (header ) 通常 包含 如 下 信息 : 


Content-Type: 

















































































































| 的 编码 方 





text/html; charset=ISO-8859-4 


有 时 HTML 页 面 可 能 包含 如 下 信息 : 

















<meta http-equiv="Content-Type" content="text/html; charset=utf-8"> 


在 其 他 情况 下 ,我们 只 能 猜测 编码 方案 。 在 美国 天 气 数据 示例 中 , 首先 猜测 UTF-8 编码 是 一 种 较 
好 的 选择 ， 其 他 常见 的 编码 包括 ISO-8859-1。 在 某 些 情况 下 ， 编 码 的 猜测 取决 于 内 容 使 用 的 语言 。 
(2)“Python 标准 库 ” 的 7.2.3 节 列 出 了 所 有 可 用 的 标准 编码 。 解 码 数据 : 


>>> document = forecast text.decode("UTF-8") 
>>> document[:80] 































































































'<!1DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.or' 
p' 前 缀 没有 了 ， 我 们 从 字 节 流 中 创建 了 一 个 由 Unicode 字符 组 成 的 正确 的 字符 串 


字符 串 。 
(3) 如 果 上 述 步 又 失败 ， 并 抛 出 异常 ， 就 说 明 猜 错 了 编码 。 我 们 需要 尝试 另 一 种 编码 。 最 后 ， 解 
析 结 果 文档 。 












































因为 示例 是 一 个 HTML 文档 ， 所 以 应 当 使 用 Beautiful Soup 处 理 。Beautiful Soup 的 相关 信息 请 参 
阅 http://www.crummy.com/software/BeautifulSoup/。 


晶 是 ， 我 们 还 可 以 在 不 完全 解析 HTML 的 情况 下 从 这 个 文档 中 提取 一 块 信息 


日 心 \: 

















>>> import re 


>>> title pattern = re.compile(r"\<h3\>(.*?)\</h3\>") 
>>> title pattern.search( document ) 


<_sre.SRE Match object; span=(3438, 3489), match='<h3>There are no products active at 
this time.</h> 
































文 个 示例 说 明 : 目前 没有 警报 。 这 并 不 意味 着 一 帆 风 顺 ， 而 是 不 存在 会 导致 灾难 的 天 气 系统 。 
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1.12.3 工作 原理 


关于 Unicode 以 及 将 Unicode 字符 编码 为 字 节 流 的 不 同方 式 的 更 多 信息 ， 请 参阅 1.11 节 。 
在 操作 系统 中 ,文件 和 网 络 连接 是 建立 在 字 节 基础 上 的 。 软 件 通过 解码 字 节 来 发 现 内 容 。 这 些 内 
容 可 能 是 字符 、 图 像 或 声音 。 在 某 些 情况 下 ， 默 认 的 假设 是 错误 的 ， 我 们 需要 自己 解码 。 
































1.12.4 延伸 阅读 


口 将 字 节 恢复 为 字符 串 数据 后 ， 解 析 或 重 写字 符 串 的 方法 有 很 多 。 更 多 解析 复杂 字符 串 的 示例 
请 参阅 1.7 节 。 
口 关于 编码 的 更 多 信息 ， 请 参阅 https://en.wikipedia.org/wiki/UTF-8 和 http://unicode.org/faq/utf bom.html。 


1.13 ”使 用 元 组 
表示 简单 的 G, 力 值 和 (, g, b) 值 的 最 好 方法 是 什么 ? 如 何 将 纬度 和 经 度 之 类 的 对 象 保存 在 一 起 ? 
1.13.1 准备 工作 


有 一 种 有 趣 的 数据 结构 1.7 节 没 讲 。 
假设 数据 如 下 所 示 : 


>>> ingredient = "Kumquat: 2 cups" 


使 用 正则 表达 式 将 以 上 数据 解析 为 有 意义 的 数据 ， 如 下 所 示 : 

>>> import re 

>>> ingredient pattern = re.compile(r'(?P<ingredient>\w+):\s+(?P<amount>\d+)\s+ 
(?P<unit>\w+)') 

>>> match = ingredient pattern.match( ingredient ) 

>>> match.groups() 

('Kumquat', '2', 'cups') 


结果 是 一 个 含有 三 个 数据 的 元 组 对 象 。 在 很 多 场合 ， 这 种 分 组 的 数据 能 够 派 上 用 场 。 
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本 实例 关注 两 个 方面 : 把 数据 放 入 元 组 ， 以 及 从 元 组 中 取出 数据 。 

1. 创建 元 组 

Python 的 很 多 内 置 模块 都 使 用 了 元 组 结构 。1.7.1 节 展 示 了 使 用 正则 表达 式 的 匹配 对 象 从 字符 串 创 
建 元 组 的 示例 。 

我 们 也 可 以 自己 创建 元 组 ， 步 又 如 下 。 

(1) 把 数据 用 () 括 起 来 。 

(2) 用 ,把 元 素 隔 开 。 


>>> from fractions import Fraction 






































>>> my _ data = ('Rice', Fraction(1/4), 'cups') 





元 组 有 一 个 重要 的 特例 


>>> one tuple ('item', 
>>> len(one tuple) 
1 


元 组 或 单 例 元 组 。 即使 元 组 只 有 一 个 元 素 ， 
) 





也 必须 包含 一 个 额外 的 ,。 


() 并 不 是 必须 的 ， 某 些 情况 下 可 以 省 略 。 但 最 好 不 要 省 略 。 在 值 后 面 添 加 一 个 额外 


的 喜 号 时 ， 可 以 看 到 有 趣 的 现象 : 
S33 359% 
(355,) 


@ 


2. 从 元 组 中 提取 元 素 


2 


355 后 的 去 号 将 字面 量 355 转换 为 一 个 单元 素 元 组 。 




















元 组 是 一 种 容器 ， 其 中 包含 一 些 
元 素 的 数量 总 是 三 个 。 





1 问题 域 固 定 的 元 素 ， 例 如 (red,， gr 














n，blue) 颜色 数字 ， 














前 面 的 示例 已 经 得 到 了 由 原料 、 数 量 和 单位 组 成 的 数据 。 这 是 一 个 三 元 
来 查看 元 
口 通过 索引 位 置 。 索 引 从 最 左边 的 位 置 开始 编号 ， 以 0 为 起 始 值 : 


>>> my_data[11] 
Fraction(1, 4) 


使 用 多 重 赋值 : 


>>> ingredient, 
>>> ingredient 











有 oO 






































amount, unit = my data 





"Rice' 
>>> unit 
"cups' 
与 字符 串 类 似 , 元 组 是 不 可 变 的 。 不 能 改变 一 个 元 组 中 的 元 素 。 若 想 保 持 数据 不 变 , 可 以 使 用 





1.13.3 ”工作 原理 






































集合 ， 可 以 通过 两 种 方式 























元 组 0 


元 组 属于 更 通用 的 序列 ( sequence )。 我 们 可 以 对 序列 执行 一 系列 操作 。 
待 处 理 的 示例 元 组 如 下 : 
>>> 七 = ('Kumquat', '2', 'cups') 


可 以 对 元 组 执行 的 操作 如 下 。 
口 获得 t 的 元 素数 量 : 


>>> len(t) 
3 


口 获得 特定 值 在 t 中 的 出 现 次 数 : 


>>> t.count('2') 
1 
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口 获得 特定 值 的 位 置 : 
>>> t.index('cups') 
2 
>>> t[2] 
"cups' 


口 当 访 问 不 存在 的 元 素 时 抛 出 异常 : 


>>> 七 .index('Rice') 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
ValueError: tuple.index(x): x not in tuple 


口 测试 特定 值 是 否 存在 : 


>>> 'Rice' in 七 
False 








1.13.4 补充 知识 





字符 串 是 字符 的 序列 ， 而 元 组 是 元 素 的 序列 ， 而 且 元 组 是 多 种 对 象 的 序列 。 











因为 字符 串 和 元 组 都 





是 序列 ， 所 以 它们 有 一 些 共同 的 特性 。 如 前 所 示 ， 我 们 可 以 通过 索引 位 置 选择 个 别 元 素 ， 也 可 以 使 用 


index() 方 法 找到 一 个 元 素 的 位 置 。 











以 上 是 两 者 的 相似 之 处 ， 两 者 之 间 还 有 很 多 不 同 之 处 。 字 符 串 具有 多 种 创建 新 字符 串 的 方法 ， 新 























字符 串 是 原 有 字符 串 的 转换 。 除 此 之 外 ,字符 串 还 具有 解析 字符 串 的 方法 ， 以 及 确定 字符 串 内 容 的 方 





法 。 元 组 没有 这 些 附加 特性 。 元 组 可 能 是 Python 最 简单 的 数据 结构 。 
1.13.5 延伸 阅读 


口 1.9 节 讨 论 了 男 一 种 序列 一 一 列表 。 
口 第 4 章 将 讨论 多 种 序列 。 








第 2 章 


语句 与 语法 








本 章 主 要 介绍 以 下 实例 。 

口 编写 Python 脚本 和 模块 文件 
口 编写 长 行 代码 

口 添加 描述 和 文档 

口 在 文档 字符 串 中 编写 RST 标记 

口 设计 复杂 的 if...elif 链 

口 设计 正确 终止 的 while 语句 

口 避免 break 语句 带 来 的 潜在 问题 
口 利用 异常 匹配 规则 

口 避免 except : 子 句 带 来 的 潜在 问题 
口 使 用 raise from 语句 链接 异常 
口 使 用 with 语句 管理 上 下 文 








T 
































2.1 引言 


Python 的 语法 非常 简单 ， 规 则 很 少 ,本 章 将 通过 讨论 一 些 常用 的 语句 来 理解 这 些 规 则 。 只 介绍 规 
则 而 没有 具体 的 例子 很 容易 让 人 疑惑 。 

本 章 将 首先 介绍 一 些 创建 脚本 文件 的 基础 知识 ， 然 后 讨论 一 些 常 用 的 语句 。Python 只 有 大 约 20 
个 不 同 的 命令 式 语 句 ， 第 1 章 已 经 使 用 了 其 中 两 种 : 赋值 语句 和 表达 式 语句 。 

例如 : 


>>> print ("hello world") 
hello world 


该 例 实际 上 执行 了 一 个 对 print () 函数 求 值 的 语句 。 这 种 对 函数 或 者 对 象 的 方法 求 值 的 语句 是 很 
常见 的 。 

男 一 种 之 前 使 用 过 的 语句 是 赋值 语句 。Python 拥有 丰富 多 样 的 赋值 语句 。 在 大 多 数 情 况 下 ， 我们 
为 一 个 变量 赋 一 个 值 。 但 是 ， 有 时 候 可 能 会 同时 给 两 个 变量 赋值 ， 例 如 : 


quotient, remainder = divmod(355, 113) 
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本 章 将 讨论 一 些 更 复杂 的 语句 ,包括 if、while、for、try、with 和 raise。 后 续 章 节 将 涉及 
其 他 常用 语句 。 


2.2 编写 Python 脚本 和 模块 文件 一 一 语法 基础 


为 了 实现 真实 的 功能 , 需要 编写 Python 脚本 文件 。 当 然 ， 可 以 在 交互 命令 行 下 进行 试验 , 但 是 对 
于 实际 工作 ， 还 是 需要 创建 文件 。 编 写 软件 的 目的 是 为 数据 创建 可 重复 的 处 理 过 程 。 

怎样 才能 避免 语法 错误 并 确保 代码 符合 常规 用 法 ? 我 们 需要 了 解 一 些 常见 的 编码 风格 一 一 如 何 
使 用 空白 让 设计 更 加 清晰 。 

本 节 也 会 介绍 一 些 技术 方面 的 注意 事项 。 例 如 ， 确 保 文 件 保存 为 UTF-8 编码 。 虽 然 Python 仍然 
支持 ASCII 编码 ， 但 是 对 于 现代 编程 来 说 这 不 是 一 个 好 的 选择 。 我 们 还 需要 确保 用 空格 代替 制 表 符 。 
尽量 使 用 Unix 换行 符 会 避免 很 多 问题 。 

大 多 数 文本 编辑 工具 都 能 正常 处 理 Unix( 换行 ) 行 尾 符 和 Windows 或 DOS ( 回 车 -换行 ) 行 尾 符 ， 
应 当 避 免 使 用 不 能 同时 支持 这 两 种 行 尾 符 的 文本 编辑 工具 。 


2.2.1 准备 工作 


我 们 需要 一 个 优秀 的 编程 文本 编辑 器 来 编辑 Python 脚本 。Python 附带 提供 了 一 个 方便 的 编辑 
器 一 -IDLE, 它 非常 实用 , 可 以 让 我 们 在 文件 和 交互 命令 行 之 间 来 回 切换 , 但 它 算 不 上 是 一 个 极 好 的 
编程 编辑 器 。 
优秀 的 编程 编辑 器 非常 非常 多 ， 下 面 就 推荐 几 种 常用 的 编辑 器 。 

ActiveState 拥有 非常 精妙 的 Komodo IDE。Komodo Edit 是 免费 的 ， 功 能 和 完整 版 的 Komodo IDE 
一 样 。Komodo Edit 可 以 在 所 有 常见 的 操作 系统 中 运行 ， 而 且 无 论 在 哪个 操作 系统 中 编写 代码 都 能 
证 一 致 性 ， 因 此 是 一 个 不 错 的 首选 编辑 器 。 

对 于 使 用 Windows 的 开发 人 员 而 言 ，Notepad++ 不 错 。 

对 于 使 用 Mac OS X 的 开发 人 员 而 言 ，BBEdit 是 非常 好 的 选择 。 

对 于 使 用 Linux 的 开发 人 员 而 言 ，Linux 内 置 了 很 多 编辑 髓 ,包括 VIM 、gedit 和 Kate。 这 些 编辑 
器 都 很 好 用 。 因 为 Linux 对 开发 者 更 加 友好 ， 所 以 Linux 中 的 编辑 器 都 适合 编写 Python。 

更 重要 的 是 ， 我 们 在 工作 时 经 常会 打开 两 个 窗口 。 

口 正在 处 理 的 脚本 或 文件 。 
口 Python 交互 命令 行 ( 可 能 来 自 shell 或 者 IDLE )。 我 们 在 交互 命令 行 中 试验 代码 是 否 可 以 运行 。 
我 们 也 可 能 在 Notepad++ 中 创建 脚本 ,但 是 使 用 IDLE 试验 数据 结构 和 算法 。 

本 节 实 际 上 有 两 个 实例 。 首 先 ， 为 编辑 器 设置 一 些 默 认 值 。 然 后 ， 当 编辑 器 正确 设置 后 ， 为 脚本 

文件 创建 一 个 通用 的 模板 。 


2.2.2 ”实战 演练 
首先 ， 完 成 编辑 器 的 常用 设置 。 虽 然 本 实例 以 Komodo 为 例 ， 但 是 基本 原则 适用 于 所 有 编辑 器 。 
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设置 完 编辑 偏好 后 ， 就 可 以 创建 脚本 文件 了 。 

(1) 打开 编辑 器 ， 查 看 偏好 ( preferences ) 页 。 

(2) 找到 首选 文件 编码 设置 ,设置 为 UTF-8。Komodo Edit 的 偏好 设置 在 国际 化 ( internationalization ) 
选项 卡 上 。 

(3) 找到 缩 进 设置 。 如 果 有 用 空格 代替 制 表 符 选项 ， 就 选中 该 选项 。 对 于 Komodo Edit， 实 际 上 做 
的 是 相反 操作 一 一 取消 选中 空格 优先 于 制 表 符 ( prefer spaces over tabs ) 选项 。 






























































0 规则 : 使 用 空格 ， 而 不 是 制 表 符 。 





同时 , 设置 每 个 缩 进 为 4 个 空格 。 这 是 Python 代码 的 典型 设置 , 可 以 让 代码 包含 多 个 级 别 的 缩 进 ， 
始终 保持 代码 非常 紧凑 。 

确定 文件 保存 为 UTF-8 编码 ， 以 及 缩 进 使 用 的 是 空格 而 不 是 制 表 符 之 后 , 就 可 以 创建 一 个 示例 脚 
本 文件 了 。 

(1) 大 多 数 Python 脚本 文件 的 第 一 行 如 下 所 示 : 

#!/usr/bin/env python3 

该 行 代码 建立 了 Python 和 正在 编写 的 文件 之 间 的 关联 。 

对 于 Windows, 文件 名 与 应 用 程序 的 关联 是 通过 一 个 Windows 控制 面板 中 的 某 个 设置 完成 的 。 在 
“默认 程序 ”控制 面板 中 , 有 个 “设置 关联 ”面板 。 在 这 个 控制 面板 中 可 以 看 到 .py 文件 绑 定 到 了 Python 
程序 上 。 文 件 关 联通 常 由 安装 程序 设 定 ， 很 少 需要 更 改 或 手动 设置 。 

0 Windows 开发 者 可 以 随意 编写 这 个 序言 行 (shabang 行 )。 当 MacOSX 和 Linux 使 用 
者 从 GitHub 下 载 项 目 时 ， 他 们 会 非常 高 兴 。 













































































(2) 序言 行 之 后 ,应 该 有 一 个 三 引号 括 起 来 的 文本 块 ,这 是 要 创建 的 文件 的 文档 字符 串 ( docstring )。 
文档 字符 串 不 是 代码 ， 只 是 用 来 解释 文件 的 。 


A summary of this script. 











由 于 Python 三 引号 字符 串 的 长 度 可 以 无 限 大 , 因此 可 以 根据 需要 随意 编写 。 文档 字符 串 应 当 是 描 
述 脚 本 或 库 模 块 的 主要 和 载体。 文档 字符 串 甚 至 可 以 包含 说 明 脚 本 或 模块 使 用 方法 的 示例 。 

(3) 编写 脚本 的 核心 处 理 ， 即 确实 执行 的 那 一 部 分 。 在 这 一 部 分 中 ,我 们 可 以 编写 所 有 用 于 完成 
处 理 的 语句 。 但 是 目前 我 们 不 会 实现 所 有 语句 ， 而 是 先 使 用 以 下 语句 作为 占 位 符 : 

print ('hello world') 

通过 上 述 语句 ,我们 的 脚本 实现 了 一 些 简单 的 处 理 。 随 后 的 实例 将 介绍 其 他 常用 语句 ， 这 些 语句 
通常 用 于 创建 函数 和 类 定义 ， 以 及 编写 语句 来 使 用 函数 和 类 。 

在 脚本 的 顶层 ， 所 有 的 语句 都 从 左边 开始 ， 并 且 必 须 在 一 行内 完成 。 有 一 些 复杂 的 语句 包含 姐 套 
的 语句 块 。 这 些 内 部 的 语句 块 必须 缩 进 。 通 常 ， 可 以 按 Tab 键 来 缩 进 ， 因 为 我 们 设置 缩 进 为 4 个 空格 。 
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通过 上 述 步 又 创建 的 示例 脚本 如 下 : 


#!1/usr/bin/env python3 


My First Script: Calculate an important value. 
DEINE (S507 LL3) 


2.2.3 工作 原理 


与 其 他 语言 不 同 ，Python 中 的 样板 代码 (boilerplate ) 很 少 ， 只 有 一 行 国定 内 容 (overhead )， 甚 
至 连 # !/usr/bin/env python3 行 都 是 可 选 的 。 

为 什么 要 把 编码 设置 为 UTF-8? 整个 语言 其 实 只 使 用 原始 的 128 ASCII 字符 就 可 以 工作 。 

但 是 , 我 们 经 常会 发 现 ASCII 编码 的 限制 。 将 编辑 器 设置 为 使 用 UTF-8 编码 会 更 容易 处 理 各 种 情 
况 。 通 过 这 个 设置 ， 可 以 简单 地 使 用 任何 有 意义 的 字符 。 如 果 以 UTF-8 编码 保存 项 目 ， 就 可 以 使 用 像 
kL 这样 的 字符 作为 Python 变量 。 

如 果 文 件 以 UTF-8 编码 保存 ， 那 么 下 面 的 代码 在 Python 


=D LL3 
print (nm) 




















































































































就 是 合法 的 : 











人 oP 在 Python 中， 选择 使 用 空格 或 者 制 表 符 ， 并 保持 一 臻 是 很 重要 的 。 它 们 或 多 或 少 都 
是 不 可 见 的 ， 混 合 使 用 很 容易 导致 混乱 。 建 议 使 用 空格 。 








若 编辑 器 使 用 4 个 空格 的 缩 进 ， 可 以 使 用 键盘 上 的 Tab 键 插入 4 个 空格 。 代 码 将 正确 地 对 齐 ， 缩 
进 能 够 展示 出 语句 之 间 的 散 套 关系 。 

最 开始 的 #1! 行 是 一 个 注释 : # 和 行 尾 之 间 的 所 有 内 容 都 会 被 忽略 。 像 bash 和 ksh 这 样 的 操作 系 
统 shell 程序 将 检查 文件 的 第 一 行 ， 以 查看 文件 包含 的 内 容 。 前 几 个 字 节 有 时 被 称 为 魔术 ( magic )， 
为 shell 正在 监视 它们 。shell 程序 查找 # ! 的 两 个 字符 序列 ， 以 识别 负责 此 数据 的 程序 。 我 们 更 喜欢 使 
用 /usr/bin/env 来 启动 Python 程序 。 我 们 可 以 利用 这 个 特性 通过 env 程序 设 定 特定 的 Python 的 环 
境 配 置 。 





















































2.2.4 补充 内 容 


“Python 标准 库 ” 的 文档 部 分 来 源 于 模块 文件 中 的 文档 字符 串 。 在 模块 中 编写 复杂 的 文档 字符 串 
是 常见 的 做 法 。 像 Pydoc 和 Sphinx 这 样 的 工具 可 以 将 模块 的 文档 字符 串 重 新 格式 化 为 优雅 的 文档 。 我 
们 将 在 不 同 的 实例 中 进行 讨论 。 

另外 ， 单 元 测试 用 例 也 可 以 包含 在 文档 字符 串 中 。 类 似 doctest 的 工具 可 以 从 文档 字符 串 中 提取 
示例 ， 并 执行 代码 以 查看 文档 中 的 答案 是 否 与 运行 代码 所 找到 的 答案 相符 。 本 书 大 部 分 示例 代码 都 是 
通过 doctest 验证 的 。 

3 个 引号 括 起 来 的 文档 字符 串 优 于 # 注 释 。# 和 行 尾 之 间 的 文本 即 为 注释 ， 每 行 注释 都 需 加 上 #， 
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使 用 时 需 谨 慎 。 文 





档 字 符 串 中 间 的 文本 不 限制 行 数 ， 所 以 用 得 更 多 。 





在 Python 3.5 中 ， 有 时 在 脚本 文件 中 会 看 到 如 下 代码 : 


Color = 355/113 # type: float 


类 型 推断 系统 
多 信息 请 参阅 PEP 











可 以 通过 注释 # type: float 确定 程序 实际 执行 时 可 以 出 现 的 各 种 数据 类 型 。 更 
484 (Python Enhancement Proposal 484, https://www.python.org/dev/peps/pep-0484/ )。 




















有 时, 文件 还 包含 另外 一 些 固定 内 容 。VIM 编辑 器 允许 在 文件 中 保留 编辑 偏好 ， 这 通常 被 称 为 模 


式 行 ( modeline )， 



































我 们 常常 必须 通过 在 ~/.vimrc 文件 中 包含 set modeline 设置 来 启用 模式 行 。 











一 县 启用 了 模 
下 面 是 一 个 典 











式 行 ， 就 可 以 在 文件 末尾 加 入 一 个 特殊 的 # vim 注释 来 配置 VIM。 
型 的 用 于 Python 的 模式 行 : 




















# vim: tabstop=8 expandtab shiftwidth=4 softtabstop=4 


根据 这 个 设置 ， 





当 敲 击 Tab 键 时 ，Unicode u+0009 TAB 字符 将 转换 为 8 个 空格 ,我 们 将 移动 4 








空格 。 这 个 设置 

















是 文件 中 携带 的 ， 不 必 再 做 任何 VIM 设置 。 





2.2.5 延伸 阅读 




















在 很 多 情况 下 ， 
度 限 制 为 不 超过 8 
行 的 长 度 众说 纷 经 
虽然 较 短 的 和 








口 2.4 节 和 2.5 节 将 介绍 如 何 编写 有 用 的 文档 字符 串 。 
口 有 关 编 码 风 格 的 更 多 信息 ， 请 参阅 https://www.python.org/dev/peps/pep-0008/。 


2.3 编写 长 行 














代码 


我 们 需要 编写 长 行 代码 ， 这 种 代码 阅读 体验 比较 差 。 许 多 人 喜欢 将 一 行 代码 的 长 
0 个 字符 ， 因 为 这 种 做 法 符合 众所周知 的 平面 设计 原则 : 短 代 码 可 读 性 强 。 关 于 每 
， 但 65 个 字符 通常 被 认为 是 最 理想 的 。 参 见 http://webtypography.net/2.1.2。 

生 阅 读 起 来 更 容易 ， 但 长 短 全 赁 个 人 喜好 。 长 语句 是 一 个 常见 的 问题 。 怎 样 才能 把 很 















































长 的 Python 语句 分 解 为 更 易 管 理 的 部 分 ? 
2.3.1 准备 工作 


宛 长 而 又 难以 





处 理 的 长 语句 很 常见 。 例 如 : 


>>> import math 


>>> example 


value = (63/25) * (17+l5*math.sqrt(5)) / (7+l5*math.sqrt(5)) 


>>> mantissa fraction, exponent = math.frexp (example value) 
>>> mantissa whole = int(mantissa fraction*2**53) 


>>> message 


text = 'the internal representation is 


{mantissa:d}/2**53*2**{exponent:d}'.format (mantissa=mantissa whole, 
exponent=exponent) 

>>> print (message text) 

the internal representation is 7074237752514592/2**53*2**2 


上 述 代码 包含 




















世 


一 个 很 长 的 公式 和 一 个 需要 注入 值 的 长 格式 字符 串 ， 在 纸 书 上 看 起 来 很 糟糕 ,在 计 
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算 机 屏幕 上 看 起 来 也 很 烦琐 。 

我 们 不 能 简单 地 将 Python 语句 分 解 成 块 。 语 法 规则 清楚 地 表明 ， 语 句 必须 在 单个 逻辑 ( logical ) 
行 上 完成 。 

术语 “ 录 辑 行 ”提示 了 应 该 如 何 解 决 长 语句 问题 。Python 区 分 逻辑 行 和 物理 行 ， 我们 可 以 利用 这 
些 语法 规则 分 解 长 语句 。 


























2.3.2 ”实战 演练 


为 了 提高 长 语句 的 可 读 性 ，Python 提供 了 多 种 包装 长 语句 的 方法 。 

口 可 以 在 行 的 结尾 使 用 \ 续 行 。 

口 根据 Python 的 语法 规则 ,语句 可 以 跨越 多 个 物理 行 ， 因为 () 、[] 和 人 字符 必须 平衡 。 除 了 使 
用 () 和 \， 还 可 以 利用 Python 自动 连接 相 邻 字符 串 字 面 量 的 方式 来 创建 一 个 更 长 的 字面 量 
("a" "b") 和 "ab" 是 一 样 的 。 

口 在 某 些 情况 下 ， 可 以 通过 将 中 间 结 果 赋 给 单独 的 变量 来 分 解 语 句 。 

本 实例 的 各 个 部 分 将 详细 介绍 上 述 方法 。 

1. 使 用 反 斜 杠 将 长 语句 分 解 为 逻辑 行 

这 种 技术 的 背景 信息 如 下 : 

>>> import math 

>>> example value = (63/25) * (17+l5*math.sqrt(5)) / (7+l5*math.sqrt(5)) 


>>> mantissa fraction, exponent = math.frexp(example value) 
>>> mantissa whole = int (mantissa fraction*2**53) 


Python 允许 使 用 \ 断 行 。 
(1) 将 整个 语句 写 在 一 个 长 行 上 ， 即 使 很 混乱 。 
>>> message text = 'the internal representation is 


{mantissa:d}/2**53*2**{exponent:d}'.format (mantissa=mantissa whole, 
exponent=exponent) 


(2) 在 逻辑 中 断 的 位 置 插入 \。 有 时 候 可 能 并 没有 真正 完美 的 逻辑 中 断 。 


>>> message text = 'the internal representation is \ 
. {mantissa:d}/2**53*2**{exponent:d}'.\ 
. format (mantissa=mantissa whole, exponent=exponent) 
>>> message text 
'the internal representation is 7074237752514592/2**53*2**21! 


为 此 ,\ 必 须 是 行内 的 最 后 一 个 字符 。\ 之 后 甚至 不 能 有 空格 。 空 格 是 很 难 察觉 到 的 ， 因 此 不 鼓励 
使 用 \。 

尽管 这 种 技术 存在 一 定 的 缺陷 ， 但 \ 总 是 非常 有 效 的。 我们 可 以 将 其 视 为 使 一 行 代码 更 具 可 读 性 
的 最 后 手段 。 

2. 使 用 () 字符 将 长 语句 分 解 为 合理 的 部 分 

(1) 整个 语句 写 在 一 行 ， 即 使 看 起 来 很 混乱 。 
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>>> import math 
>>> example valuel = (63/25) * (17+l5*math.sqrt(5)) / 
(7+15*math.sqart (5)) 


(2) 添加 额外 的 () 字符 并 不 会 改变 语句 的 值 ， 但 允许 将 表达 式 分 成 多 行 。 


>>> example value2 = (63/25) * ( (17+l5*math.sqrt(5)) / 
(7+1l5*math.sqrt(5)) ) 

>>> example value2 == example valuel 

True 


(3) 在 () 字 符 内 打 断 行 。 


>>> example value3 = (63/25) * ( 
(17+1l5*math.sqrt (5)) 
/ ( 7+1l5*math.sqrt(5)) 





| 
>>> example value3 == example valuel 
True 


匹配 () 字 符 的 技术 是 相当 强大 的 ， 适用 于 各 种 情况 ， 所 以 使 用 广泛 ， 值 得 强烈 推荐 。 

添加 额外 的 () 字符 很 容易 实现 。 在 极 少数 情况 下 ， 无 法 添加 () 字符， 或 者 添加 () 字符 不 能 改进 
语句 ， 这 时 可 以 转 而 使 用 \ 将 语句 分 成 段 。 

3. 使 用 字符 串 字 面 量 连接 合并 

我 们 可 以 使 用 组 合 字符 串 字 面 量 的 另 一 个 规则 组 合 () 字 符 。 这 对 于 很 长 而 又 复杂 的 格式 字符 串 特 
别 有 效 。 

(1) 在 0) 字符 中 包 囊 一 个 长 字符 串 值 。 

(2) 将 字符 串 拆 分 为 子 字符 串 。 


>>> message text = ( 
'the internal representation ' 
'is {mantissa:d}/2**53*2**{exponent:d}' 
。 ).format( 
. mantissa=mantissa whole, exponent=exponent) 
>>> message text 
the internal representation is 7074237752514592/2**53*2**2! 


长 的 字符 串 很 容易 被 分 成 相 邻 的 部 分 。 一 般 来 说 ， 当 片段 被 () 字符 包围 时 ,这 是 最 有 效 的 。 然 后 
可 以 使 用 尽 可 能 多 的 物理 换行 符 。 这 种 方法 仅 限于 有 特别 长 的 字符 串 值 的 情况 。 

4. 将 中 间 结 果 赋 值 给 单独 的 变量 

这 种 技术 的 背景 信息 如 下 : 


>>> import math 
>>> example value = (63/25) * (17+l5*math.sqrt(5)) / (7+l5*math.sqart(5)) 


可 以 把 这 个 语句 分 成 三 个 中 间 值 。 
(1) 识别 整个 表达 式 中 的 子 表达 式 ， 将 它们 赋 给 变 
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>>> a = (63/25) 
>>> b = (17+1l5*math.sqrt(5)) 
>>> C = (7+l5*math.sqart(5)) 
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这 个 步骤 通常 很 简单 ， 可 能 需要 注意 代数 运算 ， 以 便于 确定 合理 的 子 表达 式 。 

(2) 用 创建 好 的 变量 替换 子 表达 式 。 

>>> example value = ax b / c 

这 个 步骤 是 用 变量 对 原始 复杂 子 表达 式 所 做 的 必要 的 文本 替换 。 

这 些 变量 没有 被 赋予 描述 性 名 称 。 在 某 些 情况 下 , 子 表达 式 包含 一 些 可 以 捕获 有 意义 名 称 的 语义 。 
在 这 个 例子 中 ,我 们 没有 很 好 地 理解 表达 式 ， 以 提供 非常 有 意义 的 名 称 ， 而 是 选择 了 短 的 、 随 意 的 标 
识 符 。 






























































2.3.3 工作 原理 


Python 语言 参考 手册 区 分 了 逻辑 行 和 物理 行 。 逻 辑 行 包含 一 个 完整 的 语句 ， 它 可 以 通过 行 连接 
( line joining ) 技术 跨越 多 个 物理 行 。Python 语言 参考 手册 称 这 种 技术 为 显 式 行 连接 (explicit line 
joining ) 和 隐 式 行 连接 (implicit line joining )。 

使 用 \ 的 显 式 行 连接 有 时 非常 有 用 。 但 是 因为 很 容易 忽视 \ 后 面 的 不 可 见 字符 , 所 以 一 般 不 鼓励 使 
用 这 种 方法 。 这 是 行 连接 最 后 的 备用 方法 。 

使 用 () 的 隐 式 行 连接 适用 于 许多 情况 。 这 种 技术 通常 符合 表达 式 的 结构 , 所 以 鼓励 使 用 。() 字符 
了 岂可 以 是 必需 的 语法 的 一 部 分 ， 例 如 ，() 字 符 已 经 是 print () 函数 语法 的 一 部 分 。 利 用 () 字符 分 解 
长 语句 的 示例 如 下 : 


>>> print( 
'several values including', 
'mantissa =', mantissa, 
'exponent =', exponent 
















































































.) 
2.3.4 补充 内 容 


表达 式 广泛 应 用 于 Python 语句 。 任 何 表达 式 都 可 以 添加 () 字 符 ， 很 灵活 。 

然而 有 时 候 可 能 会 遇 到 并 不 具体 包含 一 个 表达 式 的 长 语句 。 最 显著 的 例子 就 是 import 语句 ， 
可 以 变 得 很 长 很 长 ， 但 是 并 不 使 用 任何 带 括号 的 表达 式 。 

语言 设计 者 允许 使 用 () 字符， 这 样 就 可 以 把 一 长 串 名 称 分 为 多 个 逻辑 行 :; 

>>> from math import (sin, cos, tan, 

六 sqrt, log, frexp) 


在 这 个 例子 中 ，() 字 符 显然 不 是 表达 式 ， 它 只 是 一 种 语法 ， 使 该 语句 与 其 他 语句 相 一 致 。 











叶 















































2.3.5 延伸 阅读 


口 隐 式 行 连接 也 适用 于 匹配 [字符 和 1 字符 ， 可 用 于 第 4 章 将 介绍 的 集合 ( collection ) 数据 
结构 。 
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2.4 添加 描述 和 文档 

对 于 有 用 的 脚本 ， 通 常 要 写 注 释 ， 说 明 脚本 的 功能 、 工 作 原 理 和 使 用 场景 。 

文档 清晰 明了 非常 重要 ， 这 也 有 现成 的 实例 可 参考 。 本 实例 还 包含 一 个 推荐 性 的 大 纲 ， 以 便 使 文 
档 非 常 全 面 。 
2.4.1 准备 工作 


如 果 使 用 2.2 节 的 实例 构建 脚本 文件 ， 应 首先 在 脚本 文件 中 添加 一 个 简单 的 文档 字符 串 ， 随 后 再 
扩展 这 个 文档 字符 串 。 
另外 ， 其 他 一 些 地 方 也 应 该 使 用 文档 字符 串 。 第 3 章 和 第 6 章 将 介绍 这 些 需要 追加 文档 字符 串 的 










































































位 置 








应 当 编 写 摘要 文档 字符 串 的 通用 模块 有 两 种 。 

口 库 模块 : 这 些 文件 通常 主要 包含 函数 定义 以 及 类 定义 。 在 这 种 情况 下， 文档 字符 串 摘要 专注 
于 模块 的 定义 而 不 是 模块 的 功能 。 文 档 字 符 串 可 以 提供 有 关 模 块 中 定义 的 函数 和 类 的 使 用 方 
法 的 示例 。 第 3 章 和 第 6 章 将 更 加 详细 地 介绍 函数 或 类 的 包 的 概念 。 

口 脚本 : 这 些 文件 通常 是 我 们 期 望 做 一 些 实际 工作 的 文件 。 在 这 种 情况 下 ， 我 们 更 关注 脚本 的 
功能 而 不 是 它 的 定义 。 文 档 字 符 串 应 该 描述 脚本 的 功能 和 使 用 方法 。 选 项 、 环 境 变 量 和 配置 
文件 是 这 种 文档 字符 串 的 重要 部 分 。 

有 时 我 们 会 创建 两 种 模块 都 有 的 文件 。 只 有 通过 仔细 权衡 ,才能 在 功能 与 定义 之 间 找 到 适当 的 

衡 。 在 大 多 数 情况 下 ， 我 们 同时 提供 这 两 种 类 型 的 文档 。 
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2.4.2 ”实战 演练 


对 于 库 模 块 和 脚本 ， 编 写 文档 的 第 一 步 是 相同 的 。 

编写 脚本 或 模块 的 定义 或 功能 的 简短 摘要 。 摘 要 不 需要 深入 挖掘 脚本 或 模块 的 工作 原理 。 就 像 报 
纸 文章 中 的 导语 (lede )， 给 出 了 模块 的 何人 (who )、 何 事 (what )、 何 时 ( when )、 何 地 (where )、 
如 何 (how ) 以 及 何 因 ( why )。 详 细 信息 将 会 出 现在 文档 字符 串 的 主体 中 。 

信息 由 Sphinx 和 pydoc 等 工具 显示 , 这 种 方式 提供 了 特定 的 样式 提示 。 在 这 些 工具 的 输出 中 ， 上 
下 文 非常 清楚 ， 因 此 在 摘要 句 中 省 略 主题 是 很 常见 的 。 句 子 通常 以 动词 开始 。 

例如 ， 摘 要 “This script downloads and decodes the current Special Marine Warning (SMW) for the area 
AKQ”， 其 中 有 一 个 不 必要 的 “This script”。 可 以 删除 这 部 分 内 容 ， 从 动词 短语 “Downloads and 
decodes... ”开始 。 

模块 文档 字符 串 的 开头 可 能 如 下 所 示 : 























































































































Downloads and decodes the current Special Marine Warning (SMW) 
for the area 'AKQ ' . 
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我 们 将 根据 模块 的 常见 重点 分 解 其 他 步 又 。 
1. 为 脚本 编写 文档 字符 串 
i 写 脚本 时 ， 需 要 关注 脚本 使 用 者 的 需求 。 

(1) 从 前 面 的 例子 开始 ， 创 建 一 个 摘要 句 。 

(2) 草拟 剩 下 的 文档 字符 串 的 大 纲 。 本 实例 将 使 用 ReStructuredText (RST ) 标记 编写 文档 字符 串 。 
将 主题 写 在 一 行 上 ， 然 后 在 主题 下 面 添加 一 行 =， 使 它们 成 为 一 个 正确 的 章节 标题 。 记 得 在 每 个 主题 
之 间 要 留 一 个 空 行 。 

主题 可 能 包括 如 下 几 种 。 
口 概要 (SYNOPSIS ): 脚本 运行 方法 的 摘要 。 如 果 脚 本 使 用 argparse 模块 处 理 命令 行 参数 ， 
那么 argparse 产生 的 帮助 文本 就 是 理想 的 摘要 文本 。 
口 描述 (DESCRIPTION ): 脚本 功能 的 更 完整 的 解释 。 
口 选项 ( OPTION ): 如 果 使 用 了 argparse， 那 么 就 在 这 个 主题 中 添加 每 个 参数 的 详细 信息 。 
我 们 经 常会 重复 argparse 帮助 参数 。 
口 环境 (ENVIRONMENT ): 如 果 使 用 了 os .environ, 那么 就 在 这 个 主题 中 描述 环境 变量 及 其 
含义 。 
口 文件 (FILE ): 由 脚本 创建 或 读 取 的 文件 的 名 称 是 非常 重要 的 信息 。 
口 示例 (EXAMPLE ): 脚本 使 用 方法 的 示例 总 是 有 用 的 。 
口 参阅 (SEE ALSO ): 任何 相关 的 脚本 或 者 背景 信息 。 

其 他 可 能 感 兴趣 的 主题 包括 退出 状态 、 作 者 、 错 误 、 报 告 错误 、 历 史 或 版 权 。 在 某 些 情况 下 ， 关 
于 报告 错误 的 建议 并 不 真正 属于 模块 的 文档 字符 串 ， 而 是 应 该 出 现在 项 目的 GitHub 或 SourceForge 页 
面 等 其 他 地 方 。 

(3) 填充 每 个 主题 的 详细 信息 。 准 确 非 常 重 要 。 由 于 我 们 将 文档 与 代码 舱 入 同一 个 文件 中 ， 因 此 
很 容易 在 模块 的 其 他 位 置 进行 检查 ， 以 确保 内 容 的 正确 性 和 完整 性 。 

(4) 对 于 代码 示例 ， 可 以 使 用 非常 棒 的 RST 标 记 。 回 想 一 下 ， 所 有 元 素 由 空 行 分 隔 。 在 单独 的 一 
个 段落 中 ， 直 接 使 用 : : 。 在 接 下 来 的 段落 中 ， 代 码 示例 缩 进 4 个 空格 。 

脚本 文档 字符 串 的 示例 如 下 : 
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Downloads and decodes the current Special Marine Warning (SMW) 
for the area 'AKQ' 


SYNOPSIS 


python3 akq _ weather.py 


DESCRIPTION 
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Downloads the Special Marine Warnings 


Writes a file, ‘AKW.html... 


EXAMPLES 


Here's an example:: 


slotts$ python3 akqg weather.py 
<h3>There are no products active at this time.</h3> 


























在 概要 部 分 , 使 用 : :作为 一 个 单独 的 段落 。 在 示例 部 分 , 在 段落 的 末尾 使 用 : :。 这 两 种 写法 都 是 
RST 处 理工 具 的 提示 ， 后 面 缩 进 的 部 分 应 该 排版 为 代码 。 
2. 为 库 模 块 编写 文档 字符 串 
写 库 模 块 文档 时 ， 需 要 关注 使 用 模块 的 程序 员 的 需要 。 
(1) 草拟 剩 下 的 文档 字符 串 的 大 纲 。 本 实例 将 使 用 RST 标记 编写 文档 字符 串 。 将 主题 写 在 一 行 上 ， 
然后 在 主题 下 面 添 加 一 行 =， 使 它们 成 为 一 个 正确 的 章节 标题 。 记 得 在 每 段 之 间 要 留 一 个 空 行 。 
(2) 根据 前 面 的 步 又 ， 创 建 一 个 摘要 句 。 
口 描述 (DESCRIPTION ): 概述 模块 包含 什么 ， 以 及 为 什么 模块 是 有 用 的 。 
口 模块 内 容 (MODULE CONTENT ): 模块 中 定义 的 类 和 函数 。 
口 示例 ( EXAMPLE ): 使 用 该 模块 的 示例 。 
(3) 为 每 个 主题 填充 详细 信息 。 模 块 的 内 容 可 能 是 一 长 串 类 或 函数 的 定义 。 详 细 信息 应 当 是 一 个 
摘要 。 在 每 个 类 或 函数 中 建立 一 个 单独 的 文档 字符 串 ， 其 中 包含 该 类 或 隐 数 的 详细 信息 。 
(4) 有 关 代 码 示例 请 参见 前 面 的 示例 。 使 用 : :作为 一 个 单独 的 段落 或 一 个 段落 的 结束 。 代 码 示例 
缩 进 4 个 空格 。 
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2.4.3 ”工作 原理 


经 过 几 十 年 的 演变 ， 操 作 说 明 ( man page ) 概要 包含 了 一 个 有 用 的 Linux 命令 摘要 。 这 种 编写 
文档 的 通用 方法 已 被 证 明 是 有 用 的 且 有 弹性 的 。 我 们 可 以 利用 这 些 经 验 ， 遵 照 手 册页 面 模型 结构 化 
文档 。 

这 两 个 用 于 描述 软件 的 实例 是 总 结 了 许多 独立 文档 页 面 后 写 出 的 。 我们 的 目的 是 利用 众所周知 的 
主题 集 ， 使 模块 文档 遵循 通用 实践 。 

我 们 想 要 准备 可 供 Python 文档 生成 器 Sphinx 使 用 的 模块 文档 字符 串 。Sphinx 用 于 生成 Python 的 
文档 文件 。Sphinx 中 的 autodoc 扩展 将 读 取 模块 、 类 和 函数 的 文档 字符 串 来 生成 最 终 的 文档 ， 就 像 
Python 生态 系统 中 的 其 他 模块 一 样 。 
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2.4.4 补充 内 容 


RST 有 一 个 简单 的 语法 规则 : 用 空 行 区 分 段落 。 
这 个 规则 让 文档 变 得 容易 编写 , 我 们 可 以 使 用 各 种 RST 处 理工 具 检 查 并 重新 格式 化 文档 , 使 文档 
看 起 来 非常 友好 。 
想 添加 代码 块 时 ， 可 能 会 用 到 一 些 特殊 的 段落 。 
口 用 空 行将 代码 与 文本 分 开 。 
口 用 4 个 空格 缩 进 代码 。 
口 使 用 : :前 级 。 可 以 将 其 作为 单独 的 段落 ， 或 者 作为 导入 段 (lead-in paragragh ) 末尾 的 特殊 双 


冒号 。 
















































































Here's an example:: 
more_code() 


口 : :用 于 导入 段 。 
软件 开发 中 的 很 多 环节 都 富有 艺术 性 和 挑战 性 。 文 档 并 不 是 真正 的 挑战 ,精妙 的 算法 和 复杂 的 数 
据 结构 才 真 正 具有 挑战 性 。 


对 于 只 想 使 用 软件 的 用 户 来 说 ， 独 特 的 声音 或 新 奇 的 演示 并 不 是 很 有 趣 。 在 调试 时 ， 
美观 的 样式 没有 任何 帮助 。 文档 应 当 实 而 不 华 并 遵循 惯例 。 


























编写 良好 的 软件 文档 不 太 容 易 。 过 少 的 信息 和 简单 概括 代码 的 文档 完全 是 两 码 事 。 但 可 以 让 文档 
尽量 简洁 。 重 要 的 是 ， 要 关注 那些 不 太 了 解 软件 或 其 工作 原理 的 用 户 的 需求 。 最 好 为 这 种 一 知 半 解 的 
用 户 提供 他 们 需要 的 信息 ， 描 述 软 件 的 功能 及 使 用 方法 。 

在 许多 情况 下 ， 文 档 要 包括 两 个 部 分 : 
口 软件 的 用 途 ; 
口 定制 或 扩展 软件 的 方法 。 

这 些 文档 可 能 有 两 种 不 同 的 受众 : 用 户 和 开发 人 员 。 用 户 的 需求 可 能 不 同 于 开发 人 员 。 每 种 受众 
都 具有 独特 的 视角 ,文档 的 不 同 部 分 需要 注意 这 两 种 视角 。 











































































































2.4.5 延伸 阅读 


口 2.5 节 将 介绍 另外 一 些 编写 文档 字符 串 的 技术 。 

口 2.2 节 介 绍 了 在 脚本 文件 中 添加 文档 字符 串 的 方法 。 第 3 章 和 第 6 章 将 介绍 如 何在 函数 或 类 中 
添加 文档 字符 串 。 

口 更 多 有 关 Sphinx 的 信息 ， 请 参阅 http://www.sphinx-doc.org/en/stable/。 

口 操作 说 明 的 背景 信息 请 参阅 https://en.wikipedia.org/wiki/Man_page。 
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2.5 ”在 文档 字符 串 中 编写 RST 标记 


对 于 有 用 的 脚本 ， 经 常 需 要 留 下 注释 ， 说 明 脚 本 的 功能 、 工 作 原 理 和 使 用 场景 。 用 于 生成 文档 的 
工具 非常 多 ， 比 如 使 用 RST 标 记 的 Docutils。 如 何 使 用 RST 功能 使 文档 更 具 可 读 性 呢 ? 


2.5.1 准备 工作 


2.4 节 介 绍 了 在 模块 中 添加 一 组 基本 文档 的 方法 ， 这 个 实例 是 编写 文档 的 起 点 。RST 包含 大 量 格 
式 化 规则 ， 本 实例 将 介绍 一 些 对 于 创建 具有 良好 可 读 性 的 文档 非常 重要 的 规则 。 























eh 
































2.5.2 ”实战 演练 


(1) 编写 要 点 提纲 。 我 们 需要 通过 创建 RST 章节 标题 来 组 织 内 容 。 章 节 标 题 是 一 个 两 行 的 段落 ， 
即 标题 行 后 面 紧 跟 一 行 下 划 线 ， 下 划 线 可 以 使 用 =、-、^、- 或 Docutils 使 用 的 其 他 下 划 线 字符 。 
章节 标题 如 下 所 示 









































标题 文本 在 第 一 行 ， 下 划 线 字符 在 第 二 行 。 整 个 标题 必须 被 空 行 包围 。 下 划 线 字符 可 以 多 于 标题 
字符 ， 但 不 能 少 于 标题 字符 。 

RST 工具 可 以 自动 推断 出 下 划 线 字符 的 模式 。 只 要 一 致 地 使 用 某 种 下 划 线 字符 ， 用 于 匹配 下 划 线 
字符 和 期 望 标题 的 算法 将 检测 到 该 模式 。 这 种 匹配 算法 的 关键 在 于 一 致 性 和 对 章节 、 小 节 的 清晰 理解 。 

在 刚刚 接触 RST 时 ， 制 作 一 个 下 面 这 样 的 提示 表格 将 会 有 所 帮助 。 



































符 号 级 别 

















> 
上 |wlP| 




















(2) 填充 不 同 的 段落 。 用 空 行 分 隔 段落 (包括 章节 标题 )， 额 外 的 空 行 没有 任何 影响 。 如 果 省 略 空 
行 ，RST 解析 器 将 认为 这 些 段 落 是 一 个 单独 的 长 段落 ， 这 可 能 跟 我 们 的 预想 有 所 差别 。 

可 以 使 用 内 联 标记 表示 强调 、 着 重 强调 、 代 码 、 超 链接 和 行内 公式 等 。 如 果 计 划 使 用 Sphinx， 那 
么 我 们 就 可 以 使 用 更 大 的 文本 角色 集合 。 本 实例 随后 将 介绍 文本 角色 。 

(3) 如 果 编 程 编 辑 器 具备 拼写 检查 器 ， 请 使 用 拼写 检查 器 。 令 人 泪 丧 的 是 ， 经 常会 有 一 些 代 码 示 
例 包含 可 能 无 法 进行 拼写 检查 的 缩写 。 
























































2.5.3 工作 原理 
Docutils 转换 程序 将 检查 文档 ， 寻 找 节 和 主体 元 素 。 节 由 标题 标识 。 下 划 线 用 于 将 节 组 织 为 正 
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诅 套 的 层次 结构 。 推 断层 次 

















关系 的 算法 相对 简单 ， 具 有 以 下 规则 。 








口 如 果 下 划 线 字符 已 经 出 现 过 ， 那 么 级 别 是 已 知 的 。 




















正确 巾 套 的 文档 可 能 包 


入 入 入 入 和 入 
入 入 入 入 入 入 


入 入 入 入 人 入 


入 入 入 入 人 入 


在 这 个 下 划 线 字符 序列 


口 如 果 下 划 线 字符 没有 出 现 过 ， 那 么 这 个 层次 必须 降低 一 个 级 别 ， 以 低 于 前 面 的 大 纲 级 别 。 
口 如 果 前 面 没 有 任何 级 别 ， 那 么 这 个 层次 就 是 级 别 一 。 


含 以 下 下 划 线 字符 序列 : 











中 ,第 一 个 大 纲 字符 = 表示 一 级 标题 。 下 一 个 字符 -是 未 知 的 , 但 是 它 出 现 








在 一 级 标题 之 后 ， 所 以 它 必须 表示 二 级 标题 。 第 三 个 标题 包含 ^， 这 个 字符 也 是 未 知 的 ， 所 以 它 必须 
表示 三 级 标题 。 下 一 个 ^ 仍 然 表示 三 级 标题 。 接 下 来 的 -和 “分 别 表 示 二 级 标题 和 三 级 标题 。 
当 出 现 新 字符 ~ 时 ， 由 于 是 在 三 级 标题 下 面 ， 因 此 它 必须 表示 四 级 标题 。 





如 果 中 途 改变 下 划 线 字 
过 一 个 级 别 直 接 在 二 级 标题 















































可 以 发 现 ， 不一致 将 会 导致 混乱 。 


符 级 别 ,那么 这 个 算法 是 无 法 检测 到 的 。 假 如 由 于 莫名 其 妙 的 原因 ， 想 跳 
部 分 添加 一 个 四 级 标题 ， 这 种 操作 是 无 法 完成 的 。 


























RST 解 析 器 可 以 识别 多 种 不 同类 型 的 主体 元 素 ， 前 面 已 经 遇 到 了 一 些 , 更 完整 的 主题 元 素 列 表 如 下 。 





含 其 他 主体 元 素 。 
口 脚注 (footnote ): 这 
体 元 素 。 























口 文本 段落 ( paragraphs of text ): 这 些 元 素 可 能 使 用 内 联 标记 用 于 不 同 种 类 的 强调 或 突出 显示 。 
口 字面 量 块 (literal block ): 这 些 元 素 通过 : :和 空格 缩 进 引入 ,也 可 以 通过 .. parsed-literal:: 
指令 引入 。doctest 块 缩 进 4 个 空格 ， 包 括 Python >>> 提示 。 

口 列表 、 表 格 和 块 引 用 ( list, table and block quote ): 我 们 随后 再 介绍 这 些 元 素 。 这 些 元 素 可 以 包 












































些 元 素 是 可 以 放 在 页 面 底部 或 章节 结尾 的 特殊 段落 。 它 们 可 以 包含 其 他 主 


口 超 链接 目标 、 替 代 定 义 和 RST 注释 (hyperlink target, substitution definition, and RST comment ): 


这 些 元 素 都 是 专门 的 文本 条 目 。 


2.5.4 补充 内 容 








为 了 保持 完整 性 , 这 里 要 指出 , RST 的 段落 由 空 行 分 隔 。 除 了 这 个 核心 规则 , RST 还 有 其 他 一 些 规则 。 


2.4 节 介 绍 了 以 下 几 种 3 


E 体 元 素 。 

















口 文本 段落 : 由 空 行 包 右 的 文本 块 。 在 其 内 部 可 以 使 用 内 联 标记 来 强调 单词 ， 或 者 使 用 字体 来 
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表明 引用 了 代码 中 的 元 素 。 下 面 的 “使 用 内 联 标记 ”实例 将 介绍 内 联 标 记 。 
口 列表 : 这 些 元 素 是 以 看 起 来 像 数字 或 项 目 符号 的 东西 开头 的 段落 。 对 于 项 目 符号 ， 使 用 人 
的 -或 *， 也 可 以 使 用 其 他 字符 ， 但 这 些 字 符 是 最 常见 的 。 例 如 : 
It helps to have bullets because: 
国 They can help clarify 
国 They can help organize 
口 有 序列 表 : 可 识别 的 有 序列 表 样 式 有 很 多 种 。 
常见 的 有 序列 表 有 4 种 类 型 。 
图 数字 后 紧 跟 标 点 符号 .或 ) 。 
图 字母 后 紧 跟 标点 符号 .或 ) 。 
图 罗马 数字 后 紧 跟 标点 符号 。 
量 # 后 紧 跟 标点 符号 将 继续 前 面 段落 中 的 编号 。 
口 字面 量 块 :代码 示例 必须 按 字面 量 显示 。 为 此 ,必须 缩 进 文本 .我 们 还 需要 在 代码 前 面 添加 : : 。: : 
字符 必须 是 一 个 单独 的 段落 或 代码 示例 导入 段 的 末尾 。 
口 指令 : 一 个 指令 就 是 一 个 段落 ， 通 常 类 似 . .directive::。 指 令 可 能 包含 一 些 缩 进 的 内 容 ， 
例如 : 


important:: 
Do not flip the bozo bit. 


. .important : :段落 是 一 个 指令 。 这 个 段落 之 后 紧 跟 着 一 个 在 指令 内 缩 进 的 短文 本 段落 。 这 个 示 
例 创 建 了 一 个 单独 的 段落 ， 其 中 包含 重要 警告 。 

1. 使 用 指令 

Docutils 具有 很 多 内 置 指令 。Sphinx 添加 了 大 量具 有 各 种 功能 的 指令 。 

最 常用 的 一 些 指令 是 警告 指令 ， 主 要 包括 attention、caution、 danger、 error、 hint、 
important、note、 tip、warning 以 及 通用 的 admonition。 这 些 指 令 是 复合 主体 元 素 ， 因 为 在 
它们 内 部 可 以 包含 多 个 段落 和 艇 套 指令 。 

提供 适当 强调 的 指令 如 下 所 示 : 


note:: Note Title 

















对 
二 























































































































We need to indent the content of an admonition. 
This will set the text off from other material. 


另 一 个 常见 的 指令 是 parsed-1literal 指令 。 
parsed-literal:: 


any text 
*almost* any format 
the text is preserved 
but **inline** markup can be used. 


这 个 指令 可 以 方便 地 提供 代码 示例 ， 其 中 一 部 分 代码 是 突出 显示 的 。 这 样 的 字面 量 是 一 种 简单 的 
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主体 元 素 ， 它 的 内 部 只 能 包含 文本 ， 不 能 包含 列表 或 其 他 艇 套 结构 。 

2. 使 用 内 联 标记 

在 段落 中 可 以 使 用 的 内 联 标记 技术 如 下 。 
口 可 以 使 用 * 包 囊 一 个 单词 或 短语 来 表示 强调 。 
口 可 以 使 用 ** 包 庄 一 个 单词 或 短语 来 表示 加 粗 。 
口 用 单反 引号 (`” ) 包 豆 引用 。 链接 后 面 跟 一 个 _。 使 用 section title ”可 以 引用 文档 中 的 特定 部 分 。 
通常 不 需要 在 网 址 周围 添加 任何 字符 。Docutils 工具 能 够 识别 这 些 标记 。 有 时 我 们 想 显 示 单 词 
或 短语 并 隐藏 网 址 ， 例 如 : 
‘the Sphinx documentation <http://www.sphinx-doc.org/en/stable/>._ 

口 可 以 用 双 反 引号 (… ) 包 于 代码 相关 的 单词 ， 例 如 ，``cogde`、。 

另外 还 有 一 种 更 通用 的 技术 叫 作 文本 角色 。 和 角色 比 简 单 地 用 * 字 符 包 右 一 个 单词 或 短语 要 复杂 一 
些 。 我 们 使 用 :wora: 作 为 角色 名 称 ， 后 面 紧 跟 一 个 用 ` 包 于 的 适用 单词 或 短语 。 文 本 角色 的 示例 
如 :strong: this`。 

标准 角色 名 称 有 许多 种 ， 包括 : :emphasis:、 :literal,\ :code:、 :math:、 :pep-reference:.、 
:rfc-reference:、 :strong:、:subscript:、:superscript: 和 :title-reference:,， 其 中 
一 些 角 色 可 以 使 用 更 简单 的 标记 ， 如 *emphasis* 或 **strong**。 其 余 角色 仪 作为 显 式 角 色 。 

此 外 ， 可 以 使 用 简单 的 指令 定义 新 角色 。 如 果 需 要 执行 非常 复杂 的 处 理 ， 可 以 为 Docutils 提供 用 
于 处 理 角色 的 类 定义 ， 这 样 就 可 以 调整 文档 的 处 理 方式 了 。Sphinx 添加 了 大 量 角 色 ， 用 于 支持 函数 、 
方法 、 异 常 、 类 和 模块 之 间 的 交叉 引用 。 


2.5.5 延伸 阅读 

口 关于 RST 语法 的 更 多 信息 ， 请 参阅 http://docutils.sourceforge.net。 该 网 页 包含 Docutils 工具 的 
描述 。 

口 关于 Python 文档 生成 器 Sphinx 的 信息 ， 请 参阅 http:/www.sphinx-doc.org/en/stable/。 

口 Sphinx 工具 向 基本 定义 添加 了 许多 其 他 指令 和 文本 角色 。 

















































































































































































































2.6 设计 复杂 的 if...elif 链 


在 大 多 数 情况 下 ， 脚 本 涉及 大 量 选 择 。 有 时 这 些 选 择 很 简单 ， 我 们 一 眼 就 能 判断 出 设计 的 质量 。 
有 时 这 些 选 择 非 常 复杂 ， 不 容易 确定 if 语句 是 否 正确 处 理 了 所 有 条 件 。 
在 最 简单 的 情况 下 , 假设 有 一 个 条 件 C 和 它 的 相反 条 件 -~C。 它们 是 if. . .else 语句 的 两 个 条 件 ， 
其 中 一 个 条 件 "C 声明 在 if 子 句 中 ， 另 一 个 条 件 隐 含 在 el se 子 句 中 。 
本 实例 将 使 用 p v 9 来 表示 Python 的 OR 运算 符 。 我 们 可 以 称 这 两 个 条 件 完 备 ， 因 为 : 
C v-C=T 
之 所 以 称 之 为 完备 ， 是 因为 不 存在 其 他 条 件 ， 没 有 第 三 种 选择 ， 这 就 是 排 中 律 (law of excluded 
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middle )。 这 也 是 else 子 句 背后 的 工作 原理 。 要 么 执行 if 语句 ， 要 人 么 执行 else 语句 ， 没 有 第 三 种 























选择 。 
在 实际 编程 中 ， 经 常 存在 复杂 的 选择 。 假 设 有 一 组 条 件 ，C= {Ci, CG, C3,…, CG,}o 
我 们 不 想 简 单 地 假设 : 
C1vC,vCv'*vOoO=T 
可 以 使 用 vc 来 表示 与 any (C) 或 者 any ([C_1，C_2，C_3，...，C_n] 相 似 的 含义 。 我 们 需 




















要 证 明 vc =T， 而 不 能 腾 断 该 公式 的 结果 为 true。 





我 们 可 能 遗漏 了 条 件 C41, 然后 逻辑 就 乱 了 。 遗漏 这 个 条 件 意味 着 程序 在 这 种 情况 下 将 无 法 正常 








工作 。 
怎样 才能 确保 没有 遗漏 条 件 呢 ? 


2.6.1 准备 工作 








首先 ,来 看 一 个 if.. .elif 链 的 具体 例子 。 在 赌场 游戏 双 和 山子 ( Craps ) 中 ， 有 多 种 适用 于 一 次 


掷 两 个 仍 子 的 规则 。 以 下 规则 适用 于 游戏 的 出 场 (come out ) 掷 。 
口 2、3 或 者 12 是 双 山 ， 输 掉 所 有 过 线 注 。 

口 7 或 11， 赢 下 所 有 过 线 注 。 

口 剩 下 的 数字 建立 一 个 点 数 (point )。 


























< 


午 多 玩家 把 赌注 放 在 过 线 (pass line )。 另 外 还 有 一 种 不 常用 的 不 过 线 (don'tpass line )。 我们 将 以 


上 面 这 三 个 条 件 为 例 来 介绍 本 实例 ， 因 为 这 三 个 条 件 中 有 一 个 潜在 的 不 明确 的 条 件 。 











2.6.2 ”实战 演练 
在 编写 if 语句 时 ， 即 使 语句 看 起 来 不 重要 ， 也 需要 确保 覆盖 所 有 条 件 。 











(1) 枚 举 已 知 的 选择 。 本 实例 有 三 个 规则 : (2, 3, 12)、(7, 1D 、 一 余 不 明 看 





的 数字 。 




















(2) 确定 所 有 可 能 存在 的 条 件 域 。 在 本 例 中 ， 条 件 域 中 有 11 个 条 件 : 从 2 到 12 之 间 的 数字 。 





(3) 对 比 已 知 的 选择 和 条 件 域 。 条 件 集 C 和 条 件 域 U 之 间 的 比较 可 能 有 3 种 结果 。 





已 知 的 选择 比 条 件 域 更 多 ， 即 Co Us。 设计 有 很 大 问题 ,需要 重新 思考 。 








已 知 条件 和 所 有 条 件 的 条 件 域 之 间 有 一 个 分 层 : UN\C= 纪 。 在 某 些 情况 下 ,很 明显 还 没有 覆盖 
所 有 条 件 。 在 其 他 情况 下 ， 需 要 仔细 推理 。 我 们 需要 用 更 准确 的 定义 术语 来 替换 任何 模糊 或 不 明确 的 





术语 。 























本 例 有 一 个 模糊 的 术语 ， 我 们 可 以 将 其 蔡 换 为 更 具体 的 内 容 。 术 语 剩 下 的 数字 似乎 是 值 (4, 5, 6, 8， 




















9, 10) 的 列表 。 提 供 这 个 列表 可 以 消除 任何 可 能 的 分 歧 和 怀疑 。 
已 知 选择 与 可 能 的 选择 域 匹配 ， 即 U= C。 两 种 常见 的 情况 如 下 。 














口 像 Cv -C 这 样 简单 的 情况 ， 可 以 使 用 一 个 if.. .else 语句 ， 不 需要 使 用 本 实例 ， 因 为 很 容 


易 就 可 以 推 新 出 ”"C。 
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口 更 复杂 的 情况 。 因 为 我 们 知道 整个 条 件 域 ， 即 vc = 工 ， 所 以 需要 使 用 本 实例 来 编写 一 个 让 
语句 和 elif 语句 的 逻辑 链 ， 一 个 条 件 一 个 子 句 。 
然而 ， 区别 并 不 总 是 清晰 的 。 在 本 例 中 ,我 们 没有 为 其 中 一 个 条 件 制定 详细 的 规范 ,但 条 件 多 半 





























是 明确 的 。 如 果 我 们 认为 遗漏 的 条 件 是 显而易见 的 ， 那么 可 以 使 用 一 个 el se 子 句 ， 而 不 是 显 式 地 写 








出 来 。 如 果 我 们 认为 遗漏 的 条 








件 可 能 会 被 误解 ， 那 么 应 该 认为 它 是 含混 不 清 的 ， 并 使 用 这 个 实例 。 


(1) 编写 覆盖 所 有 已 知 条 件 的 if.. .elif...elif 链 。 对 于 本 例 ， 如 下 所 示 : 


dice = die 1 + die 2 
Lf EGe Ln (2 3 2) 
game.craps () 
elif dreer En (7 "LL: 
game .winner () 


elif ‘dice” im (4,; 5%. 6: 


game .point (die) 


8, 9, 10): 


(2) 添加 抛 出 异常 的 else 子 句 ， 如 下 所 示 ; 


else: 


raise Exception('Design Problem Here: not all conditions accounted for') 





额外 的 el se 骨 汝 条 件 为 我 们 提供 了 一 种 可 以 在 发 现 逻 辑 问 题 时 积极 地 识别 的 方法 。 可 以 确信 任 


何 错误 都 会 引发 明显 问题 。 


2.6.3 工作 原理 








我 们 的 目标 是 确保 程序 
可 能 出 现 错误 假设 。 









































直 正 常 工作 。 虽然 可 以 借助 于 测试 , 但 是 在 设计 用 例 和 测试 用 例 时 仍然 


虽然 严格 的 逻辑 是 必 不 可 少 的 , 但 是 我 们 仍然 会 犯错 误 。 此 外 ,其 他 人 也 可 能 尝试 调整 我 们 的 代 
码 ， 并 导致 错误 。 更 令 人 七 众 的 是 ， 我 们 在 改变 自己 的 代码 时 ， 也 可 能 导致 故障 。 





else 冲突 选项 迫使 我 们 明确 每 个 条 件 ， 没 有 任何 假设 。 正 如 前 旬 





逻辑 上 的 错误 都 将 暴露 。 









































else 冲突 选项 并 没有 显著 的 性 能 影响 。 一 个 简单 的 else 子 句 比 一 个 带 条 件 的 elif 语句 略 快 。 


j 提 到 的 ， 在 抛 出 异常 时 ， 任 何 


如 果 我 们 认为 应 用 程序 的 性 能 取决 于 单个 表达 式 的 开销 ,那么 就 需要 解决 更 严重 的 设计 问题 。 计 算 单 
个 表达 式 的 开销 极 少 会 成 为 一 个 算法 中 开销 最 大 的 部 分 。 











在 出 现 设 计 问题 时 ， 通 过 异常 引发 和 溃 是 明智 的 行为 ， 而 遵循 设计 模式 向 日 志 
分 歧 ， 那么 程序 将 会 出 现 致命 错误 ， 尽 快 找到 并 解决 这 个 问题 很 




















没有 多 大 意义 。 如 果 出 现 这 样 的 逻辑 


重要 。 


2.6.4 补充 知识 





























Ph 写 和 警告 消息 并 





在 许多 情况 下 ， 在 程序 处 理 的 某 个 时 刻 ， 可 以 从 对 所 需 后 置 条 件 的 检查 中 派生 出 一 个 1E... 
elif...elif 链 。 例 如 ， 我 们 需要 一 个 语句 来 表示 m 为 a 或 5 中 较 大 的 值 。 
(为 了 符合 逻辑 ， 避 免 使 用 m = max(a，b)。) 
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规范 化 后 的 最 终 条 件 为 : 
(m=av m=b)Am>a 入 m>b 
可 以 从 最 终 条 件 倒 推 ， 将 最 终 目 标 编写 为 assert 语句 : 
# 执行 某 些 处 理 
assert (m= aorm= bl) andm>a andm>b 
在 规定 了 目标 之 后 ， 就 可 以 识别 出 达到 该 目标 的 语句 了 。 类 似 m = a 和 nm = b 这 样 明确 的 赋值 
语句 是 恰当 的 , 但 是 只 能 在 一 定 的 条 件 下 使 用 。 
上 述 每 个 语句 都 是 解决 方案 的 一 部 分 ， 我 们 可 以 推导 出 一 个 前 置 条 件 ， 说 明 应 该 如 何 使 用 语句 。 
赋值 语句 的 前 置 条 件 是 1E 和 elif 表达 式 。 当 a >= b 时 ， 需 要 使 用 m = a; 当 b >= a 时 ,需要 
使 用 m = b。 把 逻辑 重新 编排 成 为 代码 ， 如 下 所 示 : 
TE a = 
m= a 
elif b >= a: 
eB 
else: 
raise Exception( 'Design Problem') 
assert (m= a orm= bl) andqm>a andm>b 


请 注意 ， 条 件 域 U= {a > b,b > 中 是 完备 的 ， 没 有 其 他 可 能 的 关系 。 另 外 还 需要 注意 ,在 a = b 
的 边界 情况 下 ,我 们 实际 上 并 不 关心 使 用 哪个 赋值 语句 ，Python 将 按 顺 序 处 理 决策 ， 并 将 执行 m = a。 
事实 上 ， 这 种 选择 是 一 致 的 ， 不 应 该 对 if . . .el1if.. .elif 链 的 设计 产生 任何 影响 。 我 们 应 该 总 是 
先 编写 条 件 ， 而 不 考虑 子 句 的 执行 顺序 。 




























































































2.6.5 延伸 阅读 


口 本 实例 类 似 于 空 悬 else ( dangling else ) 语法 问题 ， 请 参阅 https://en.wikipedia.org/wiki/Dang- 
ling_else。 

口 Python 的 缩 进 解决 了 空 悬 else 语法 问题 , 但 是 解决 不 了 在 复杂 的 if.. .elif...elif 链 中 正 
上 说明 所 有 条 件 的 语义 问题 。 

口 此 外 ， 请 参阅 https://en.wikipedia.org/wiki/Predicate_transformer semantics。 


2.7 设计 正确 终止 的 while 语句 


在 大 部 分 情况 下 ,Python 的 for 语句 能 够 提供 需要 的 所 有 和 迭代 控制 。 在 许多 情况 下 ,可 以 使 用 像 
map () 、filter() 和 reduce() 这 样 的 内 置 函 数 来 处 理 数据 集合 。 

但 是 在 某 些 情况 下 ， 需 要 使 用 while 语句 ， 其 中 一 些 情况 涉及 不 能 创建 迭代 器 来 遍历 元 素 的 数 
据 结构 。 另 外 有 些 数据 涉及 用 户 交 互 ， 直 到 获取 用 户 的 输入 时 我 们 才 有 数据 。 
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2.7.1 准备 工作 


假设 我 们 将 提示 用 户 输入 密码 。 本 实例 将 使 用 getpass 模块 ， 这 样 就 不 会 显示 回 显 。 

此 外 , 为 了 确保 用 户 正 确 地 输入 密码 , 我 们 将 提示 用 户 输入 两 次 密码 并 比较 结果 。 在 这 种 情况 下 ， 
一 个 简单 的 for 语句 不 能 很 好 地 解决 问题 。 虽 然 可 以 勉强 使 用 for 语句 ,但 是 由 此 产生 的 代码 看 起 
来 很 奇怪 : for 语句 有 明确 的 上 限 , 但 是 提示 用 户 输入 并 不 具有 上 限 。 












































2.7.2 ”实战 演练 


设计 这 种 迭代 算法 的 核心 处 理 过 程 可 以 大 致 分 为 6 步 。 简单 的 for 语句 不 能 解决 问题 时 ,可 用 这 
种 迭代 算法 。 

(1) 定义 完成 条 件 。 本 例 有 两 个 密码 的 副本 
texto 循环 后 必须 为 true 的 条 件 是 passworgd_text = = confirming_password_text。 理 想 情 
况 下 ， 从 用 户 或 文件 读 取 信息 是 一 种 有 界 的 活动 。 最 终 ， 用 户 会 输入 一 对 匹配 值 。 在 他 们 输入 这 对 匹 
配 值 之 前 ， 无 限 迭 代 。 

当然 , 还 存在 其 他 边界 条 件 。 例 如 ,文件 结束 或 者 让 用 户 返 回 到 先前 的 提示 符 。 在 Python 中 , 通 
常 使 用 异常 来 处 理 这 些 边界 条 件 。 

当然 , 还 可 以 将 这 些 附加 条 件 添加 到 之 前 的 完成 条 件 的 定义 中 。 我 们 可 能 需要 一 个 复杂 的 终止 条 
件 ， 如 文件 结束 或 Passwora_text = = confirming password_ text。 

本 例 将 选择 异常 处 理 ， 并 假设 使 用 了 try :语句 块 。 这 种 方法 极 大 简化 了 设计 ,使 终止 条 件 只 
一 个 子 句 。 

该 循环 的 概要 如 下 所 示 : 

# 初始 化 某 些 条 件 

while # 当 不 满足 终止 条 件 时 : 

# 执行 某 些 处 理 

assert password text == confirming password text 

我 们 将 完成 条 件 的 定义 编写 为 最 后 的 assert 语句 ， 并 为 其 余 的 迭代 添加 了 注释 ， 具体 内 容 将 在 
后 续 步 又 中 填充 。 

(2) 定义 一 个 在 循环 迭代 时 为 frue 的 条 件 , 这 就 是 所 谓 的 不 变 式 (invariant )， 因 为 它 在 循环 处 理 
的 开始 和 结束 时 始终 为 true。 通 常 通过 泛 化 后 置 条 件 或 引入 另 一 个 变量 来 创建 不 变 式 。 

当 从 用 户 (或 文件 ) 读 取 内 容 时 ， 有 一 个 隐 含 的 状态 变化 ， 这 个 状态 变化 是 不 变 式 的 重要 组 成 部 
分 ， 可 以 称 之 为 获取 下 一 个 输入 状态 ( get the next input ) 的 变化 。 通 常 须 清 楚 地 表明 ， 循 环 将 从 输入 
流 获 取 下 一 个 值 。 

无 论 while 语句 的 循环 体 有 多 么 复杂 的 逻辑 ， 都 必须 保证 循环 正常 得 到 下 一 个 元 素 。 有 的 条 件 
实际 上 并 没有 得 到 下 一 个 输入 ， 这 是 一 种 常见 的 错误 ,将 导致 程序 挂 起 一 一 在 while 语句 循环 体 的 
if 语句 中 ,逻辑 路 径 没有 状态 变化 。 不 变 式 没 有 正确 地 重 置 ， 或 者 在 设计 循环 时 不 变 式 没有 正确 地 
连接 。 


password_text 和 confirming_password_ 
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在 本 例 中 , 不 变 式 将 使 用 概念 性 的 new-input () 条件。 当 使 用 getpass () 函数 读 取 一 个 新 值 时 ， 





这 个 条 件 为 true。 经 过 扩展 的 循环 设计 如 下 所 示 : 


# 初始 化 某 些 条 件 
# 断言 不 变 式 new-input (password_text) 
# 和 new-input (confirming_ password_ text) 
while # 当 不 满足 终止 条 件 时 : 
# 执行 某 些 处 理 
# 断言 不 变 式 new-input (password_text) 
# 和 new-input (confirming_ password_ text) 
assert password_ text == confirming password_ text 


(3) 定义 退出 循环 的 条 件 。 需要 确保 这 个 条 件 依赖 于 不 变 式 为 true。 还 需要 确保 ， 当 这 个 终止 条 








生 


























件 最 终 为 false 时 ， 目 标 状态 将 变 为 true。 





在 大 多 数 情 况 下 ,循环 条 件 是 目标 状态 的 逻辑 否定 。 经 过 扩展 的 设计 如 下 所 示 : 


# 初始 化 某 些 条 件 
# 断言 不 变 式 new-input (password_text) 
# 和 new-input (confirming_ password_ text) 
while password text != confirming password text: 
# 执行 某 些 处 理 
# 断言 不 变 式 new-input (password_text) 
# 和 new-input (confirming_ password_ text) 
assert password_ text == confirming password_ text 


(4) 定义 初始 化 语句 ， 确 保 不 变 式 为 true 而 且 可 以 测试 终止 条 件 。 本 例 需要 为 两 个 变量 获取 值 。 








循环 如 下 所 示 : 


password_ text= getpass() 
confirming password text= getpass ("Confirm: ") 
# 断言 new-input (password_text) 
# 和 new-input (confirming_password_ text) 
while password text != confirming password text: 
# 执行 某 些 处 理 
# 断言 new-input (password_text) 
# 和 new-input (confirming_ password_ text) 
assert password_ text == confirming password_ text 


(5) 编写 循环 体 ， 将 不 变 式 重 置 为 rue。 我 们 需要 编写 最 少 的 语句 来 完成 该 步 又 。 对 于 本 示例 循 
最 少 的 语句 很 明显 ， 即 初始 化 语句 。 更 新 后 的 循环 如 下 所 示 


password_ text= getpass () 

confirming password text= getpass ("Confirm: ") 

# 断言 new-input (password_text) 

# 和 new-input (confirming_ password_ text) 

while password text != confirming password text: 
password_ text= getpass() 
confirming password_ text= getpass ("Confirm: ") 
# 断言 new-input (password_text) 
# 和 new-input (confirming_ password_ text) 

assert password_ text == confirming password_ text 


(6) 确定 一 个 计时 器 ， 即 一 个 单调 递减 函数 ， 表 明 循环 的 每 次 迭代 都 越 来 越 接近 终止 条 件 。 
在 收集 用 户 输入 时 ， 我们 不 得 不 假设 最 终 用 户 将 输入 一 对 匹配 值 。 每 次 循环 都 将 更 加 接近 这 对 匹 
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配 值 。 为 了 更 好 地 形式 化 ， 可 以 假定 在 遇 到 匹配 值 之 前 会 有 个 输入 ,那么 程序 就 必须 表明 每 次 循环 
之 后 , n 的 值 都 变 小 了 。 

在 复杂 的 情况 下 ， 可 能 需要 将 用 户 输入 视 为 值 列表 。 对 于 本 示例 ， 可 以 认为 用 户 输入 是 一 对 值 的 
序列 : [pu 91),(p2, 92),(p3, 93) (pe 9g]。 根 据 这 个 有 限 的 列表 ， 我 们 更 容易 推断 循环 是 否 更 加 接近 终 
止 条 件 。 

因为 我 们 基于 目标 最 终 条 件 构 建 循环 ， 所 以 可 以 绝对 确定 循环 满足 了 设计 要 求 。 如 果 逻 辑 是 合理 
的 ， 那么 循环 将 终止 ,并 且 以 预期 的 结果 终止 。 这 是 所 有 程序 设计 的 目标 : 给 定 一 些 初 始 状态 ， 使 机 
帮 达 到 预期 状态 。 

删除 注释 后 的 循环 如 下 所 示 : 


Passwordq_text= getpass () 
Confirming password text= getpass ("Confirm: ") 
while password text != confirming password text: 
password_text= getpass () 
confirming password_ text= getpass ("Confirm: ") 
assert password_ text == confirming password_ text 


最 后 的 后 置 条 件 是 assert 语句 。 对 于 复杂 的 循环 ，assert 语句 既是 内 置 的 测试 ， 也 可 解释 循 
环 如 何 工 作 。 

这 种 设计 通常 会 产生 一 个 循环 , 类 似 于 我 们 基于 直觉 可 能 开发 的 循环 。 对 于 凭借 直觉 开发 的 设计 ， 
一 步 一 步 地 论证 并 没有 错 。 经 过 多 次 练习 后 ， 就 可 以 更 有 信心 地 使 用 循环 了 ， 因 为 我 们 可 以 证 明 设 计 
的 合理 性 。 

在 本 例 中 ， 循 环 体 和 初始 化 语句 恰好 是 相同 的 代码 。 如 果 这 是 一 个 问题 ， 那 么 我 们 可 以 定义 一 个 
只 有 两 行 的 函数 ， 以 避免 重复 的 代码 。 第 3 章 将 会 讨论 这 个 问题 。 









































































































































2.7.3 工作 原理 


我 们 首先 阐明 了 循环 的 目标 ,并且 所 做 的 一 切 将 确保 代码 会 实现 目标 。 实 际 上 ， 这 是 所 有 软件 设 
计 背 后 的 动机 一 一 总 是 试图 编写 最 少 的 语句 来 实现 给 定 的 目标 状态 。 我 们 经 常 从 目标 反 推 初始 化 。 推 
理 链 中 的 每 一 步 实际 上 都 说 明了 产生 预期 结果 条 件 的 某 个 语句 s 的 最 弱 前 置 条 件 。 

根据 给 定 的 后 置 条 件 ， 我 们 试图 得 出 一 个 语句 和 前 置 条 件 。 模 式 如 下 : 


assert pre-condition 
S 
assert post-condition 


后 置 条 件 是 循环 的 完成 条 件 。 我 们 需要 假设 一 个 产生 完成 条 件 的 语句 s, 以 及 该 语句 的 前 置 条 件 。 
可 以 选择 的 语句 有 无 数 个 ， 我 们 关注 最 弱 的 前 置 条 件 一 一 具有 最 少 假设 的 前 置 条 件 。 

在 某 些 情况 下 ， 通 常 在 编写 初始 化 语句 时 ， 前 置 条 件 只 为 true: 任何 初始 状态 都 将 作为 语句 上 
前 置 条 件 。 这 就 是 程序 可 以 从 任意 初始 状态 开始 并 按 预 期 完成 的 原因 。 这 种 情况 是 最 理想 的 。 

当 设计 while 语句 时 ,循环 体内 部 有 一 个 藤 套 的 上 下 文 。 循 环 体 应 当 始终 处 于 将 不 变 式 条 件 重 
置 为 true 的 处 理 过 程 中 。 在 本 例 中 ， 这 意味 着 读 取 更 多 用 户 输入 。 在 其 他 示例 中 ， 我 们 可 能 正在 处 
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理 字 符 串 中 的 另 

















个 字符 ， 或 一 组 数字 中 的 另 一 个 数字 。 








我 们 需要 证 








明 当 不 变 式 为 true 且 循 环 条 件 为 false 时 ,最 终 目标 就 实现 了 。 当 从 最 终 目 标 开始 ， 
并 根据 最 终 目标 创建 不 变 式 和 循环 条 件 时 ， 这 种 证 明 会 更 容易 一 些 。 























更 重要 的 是 耐心 地 完成 每 一 步 ， 这 样 推理 才 是 可 靠 的 。 我 们 需要 证 明 循环 能 够 正常 运行 ， 然 后 就 
可 以 放心 地 运行 单元 测试 了 。 








2.7.4 延伸 阅读 











口 2.8 节 将 讨论 高 级 循环 设计 的 其 他 方面 内 容 。 

口 2.6 节 也 将 讨论 这 个 概念 。 

口 关于 这 个 主题 的 一 篇 经 典 文章 是 David Gries 的 “Anote on a standard strategy for develo 
invariants and loops”。 


口 算法 设计 是 一 个 很 大 的 主题 。Skiena 的 《算法 设计 手册 》 是 很 好 的 入 门 介 绍 。 


























2.8 避免 break 语句 带 来 的 潜在 问题 


通常 for 语句 可 以 理解 为 : 该 语句 创建 一 个 for all 条 件 。 禾 


的 所 有 元 素 进 行 


但 是 ， 这 并 不 是 for 语句 唯一 的 语义 。 当 for 语句 的 循环 体 
的 语义 将 变 为 “there exists”( 存在 )。 当 break 语句 跳出 for (或 whi 





ping loop 











了 某 些 处 理 。 




















在 至 少 一 个 导致 语句 结束 的 元 素 。 

这 里 有 一 个 小 问题 。 如 细 
语句 。 德 摩根 定律 (De Morgan’s laws ) 表明 ， 一 个 不 存在 的 条 伯 
VB(x)。 在 该 公式 中 , B(x) 是 含有 break 的 if 语句 的 条 件 。 如 明 





















































为 true。 该 定 得 


EE 显示 了 在 典型 的 for all 循环 和 包含 break 的 there exists 循环 之 间 的 一 些 相 1 


E 语 名 结束 时 ， 可 以 肯定 已 经 对 集合 中 








世人 了 break 语句 时 ，for 语句 
le ) 语句 时 ， 我 们 只 能 断言 存 


循环 结束 而 不 执行 break 语句 怎么 办 ?甚至 没有 一 个 元 素 触发 break 
F 可 以 重新 作为 for all 条 件 : 3.B(x) = 
从 未 找到 B(x), 则 对 于 所 有 元 素 -B8(x) 


以 性 。 





在 离开 for 语句 或 while 语句 时 为 true 的 条 件 可 能 是 模糊 的 。 它 是 否 正常 终止 ? 它 是 否 执行 
这 些 问题 都 不 能 轻易 地 回答 ， 因 此 ， 我 们 将 通过 一 个 实例 来 提供 一 些 设计 指导 。 


了 break 语句 ? 


当代 码 包含 多 个 break 语句 ， 而 且 






























































2.8.1 准备 工作 














假设 需要 在 


每 个 break 语句 都 有 自己 的 条 件 时 ， 这 种 情况 可 能 会 成 为 一 
个 更 大 的 问题 。 如 何 最 大 限度 地 减少 由 于 复杂 的 preak 条 件 而 产生 的 问题 ? 


个 字符 串 中 找到 第 一 次 出 现 的 :或 =。 这 是 一 个 将 for 语句 修改 为 there exists 语义 
的 好 例子 。 我 们 并 不 想 处 理 所 有 字符 ， 只 想 知道 最 左边 的 :或 = 的 位 置 。 


>>> sample 1 = "some name = the value" 
>>> for position in range(len(sample 1)): 
if sample 1[position]l in '=:': 

















break 


>>> print('name=', sample 1[:position], 
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i 'value=', sample 1[position+1:]) 
name= some name value= the value 


能 够 覆盖 边界 情况 吗 ? 

>>> sample 2 = "name only" 

>>> for position in range(len(sample 2)): 
if sample 2[position] in '=:': 

break 

>>> print('name=', sample 2[:position], 


Pe 'value=', sample 2[position+1:]) 
name= name_ onl value= 


上 述 示例 得 估 地 出 错 了 。 错 误 的 原因 是 什么 ? 
2.8.2 ”实战 演练 


2.7 节 指 出 ， 每 个 语句 都 建立 了 一 个 后 置 条 件 。 在 设计 循环 时 ， 需 要 明确 说 明 后 置 条 件 。 本 实例 
并 没有 正确 地 表达 后 置 条 件 。 

理想 情况 下 ， 后 置 条 件 只 是 类 似 text [position] in '=:' 的 简单 表达 式 , 但 是 ， 如 果 给 定 的 
文本 中 没有 = 或 :, 那么 这 种 简单 的 后 置 条 件 就 没有 任何 逻辑 意义 。 当 不 存在 匹配 标准 的 字符 时 ， 就 不 
能 对 不 存在 的 字符 的 位 置 做 出 任何 断言 。 

(1) 编写 显而易见 的 后 置 条 件 。 有 时 称 之 为 主流 程 (happy path ) 条 件 ， 因 为 它 是 没有 异常 发 生 时 
为 true 的 条 件 。 


text [position] in =" 

(2) 为 边界 情况 添加 后 置 条 件 。 本 示例 有 两 个 附加 条 件 。 
口 字符 串 中 没有 -= 或 : O 
口 字符 串 没 有 任何 字符 。len ( ) 为 零 ,， 实际 上 根本 就 没有 运行 循环 。 在 这 种 情况 下 ， 根 本 就 不 会 


创建 变量 position。 































































































(len(text) == 
or Tiot('s" in text or ':’ in. text) 
Gr text [DOSTtLEoN] Lr eS) 


(3) 如 果 使 用 while 语句 ， 请 考虑 重新 设计 以 具备 完备 条 件 。 这 样 就 可 以 不 使 用 break 语句 。 

(4) 如 果 使 用 for 语句 ， 请 确保 进行 了 正确 的 初始 化 , 并 在 循环 之 后 的 语句 中 添加 各 种 终止 条 件 。 
在 x = 0 后面 添加 for x = ..: 显 得 有 些 多 余 ， 但是， 对 于 不 执行 break 语句 的 循环 来 说 ， 这 是 必 
需 的 。 

>>> position = -1 # 如 果 长 度 为 0 

>>> for Position in range(len(sample 2)): 


if sample 2[position] in '=:': 
break 












































>>> if position == -1: 
了 print ("name=", None, "value=", None) 
. elif not(text[position] == ':' or text[position] == '='): 
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print ("name=", sample 2, "value=", None) 
. else: 
print('name=', sample 2[:position], 
a 'value=', sample 2[position+1:]) 
name= name only value= None 


在 for 之 后 的 语句 中 , 我 们 显 式 地 枚 举 了 所 有 终止 条 件 。 最 后 的 输出 name= name_only value= 
None 说 明正 确 地 处 理 了 示例 文本 。 


2.8.3 工作 原理 


这 种 方法 迫使 我 们 仔细 研究 后 置 条 件 ， 确 保 了 解 循环 终止 的 所 有 原因 。 

在 包含 多 个 break 语句 的 复杂 循环 中 ， 很 难 完全 得 到 后 置 条 件 。 循 环 的 后 置 条 件 必 须 包 括 离 开 
循环 的 所 有 原因 : 正常 原因 以 及 所 有 break 条 件 。 

在 许多 情况 下 ,可 以 重 构 循 环 , 将 处 理 添 加 至 循环 体 。 不 是 简单 地 断言 position 是 = 或 :字符 的 
索引 ， 而 是 添加 了 下 一 个 处 理 步骤 ， 为 name 和 value 赋值 。 示 例 代码 如 下 所 示 : 


if len(sample 2) > 0: 

name, value = sample_2, None 
else: 

name, value = None, None 
for position in range(len(sample 2)): 

if sample 2[position] in '=:': 

name, value = sample 2[:position], sample2 [position:] 

print ('name=', name, 'value=', value) 


这 个 版 本 的 代码 基于 前 面 的 完备 后 置 条 件 集 把 一 些 处 理 提前 了 。 这 种 重 构 是 很 常见 的 。 

这 种 方法 放 充 了 所 有 假设 或 直觉 。 稍 微 经 过 练习 ， 我 们 就 可 以 确定 任何 语句 的 后 置 条 件 。 

事实 上 ， 对 后 置 条 件 的 思考 越 多 ， 软 件 就 越 精确 。 必 须 明 确 软 件 的 目标 ， 并 通过 最 简单 的 语句 实 
现 目标 。 












































































































































2.8.4 补充 知识 


我 们 还 可 以 在 for 语句 中 使 用 else 子 句 来 确定 循环 是 否 正常 完成 或 者 是 否 执行 了 break 语句 。 
示例 代码 如 下 所 示 : 


for position in range(len(sample 2)): 
if sample 2[position] in "=:': 
name, value = sample 2[:position], sample 2[position+l1:] 























break 
else: 
if len(sample 2) > 0: 
name, value = sample_ 2, None 
else: 


name, value = None, None 
else 条 件 有 时 会 令 人 困惑 ， 因 此 不 推荐 使 用 。 目 前 还 不 清楚 这 种 方法 是 否 比 其 他 替代 方案 都 好 。 
因为 很 少 执行 else 条 件 ， 所 以 其 执行 原因 很 容易 被 忘记 。 
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2.8.5 延伸 阅读 


口 关于 本 主题 的 一 篇 经 典 文章 是 David Gries 的 “A note on a standard strategy for developing loop 


invariants and loops”。 


2.9 利用 异常 匹配 规则 


try 语句 可 以 捕获 异常 。 当 抛 出 异常 时 ， 有 很 多 种 处 理 方法 。 
口 忽略 异常 : 如 果 忽 略 异 常 ， 那 么 程序 将 终止 。 解 决 方法 有 两 种 ， 即 从 一 开始 就 不 使 用 try 语 
句 ， 或 者 try 语句 中 没有 匹配 的 except 子 句 。 

口 记录 异常 : 写 人 消息 ， 然 后 继续 传播 异常 ， 这 种 处 理 方法 通常 将 终止 程序 。 

口 从 异常 中 恢复 : 可 以 编写 except 子 句 执行 某 些 恢复 操作 ， 撤 消 try 子 句 中 仅 部 分 完成 的 某 







































































些 代码 的 影响 。 还 可 以 更 进一步 ,将 try 语句 包装 在 while 语句 中 ,持续 重 试 直到 成 功 运行 
为 止 。 

口 静默 异常 : 如 果 不 处 理 异 常 ( 即 pass )， 那 么 将 在 try 语句 之 后 恢复 处 理 。 这 样 就 会 静默 
异常 。 








口 重 写 异常 : 可 以 抛 出 另 一 个 不 同 的 异常 。 原 始 异常 变 为 新 抛 出 异常 的 上 下 文 。 
口 链接 异常 : 将 另 一 个 不 同 的 异常 链接 到 原始 异常 。2.11 节 将 介绍 这 种 方法 。 
在 树 套 的 上 下 文中 ， 内 部 的 try 语句 可 以 忽略 异常 ， 异常 可 以 通过 外 部 上 下 文 处 理 。 每 个 try 
语句 上 下 文 的 基本 选项 集 都 是 相同 的 。 软 件 的 总 体 行为 依赖 于 骨 套 的 定义 。 
try 语句 的 设计 依赖 于 Python 异常 形成 类 层次 结构 的 方式 。 相 关 详 细 信息 ， 请 参阅 “Python 标准 


库 ”5.4 节 。 例如 , ZeroDivisionError 是 ArithmeticError, 也 是 Exception。 再 如 , FileNot- 


















































FoundError 十 OSError， 也 是 Exception。 


如 果 试 图 同时 处 理 详细 异常 以 及 通用 异常 ， 那 么 这 种 层次 结构 可 能 导致 混乱 。 
2.9.1 准备 工作 


假设 我 们 只 是 简单 地 使 用 shutil 将 文件 从 一 个 地 方 复制 到 另 一 个 地 方 。 大 部 分 可 能 抛 出 的 异常 
都 表明 问题 非常 严重 。 然 而 ， 在 罕见 的 FileExistsError 事件 中 ， 可 以 尝试 恢复 操作 。 
代码 的 简要 大 纲 如 下 所 示 : 


from pathlib import Path 

import shutil 

import os 

source_path = Path(os.path.expanduser!l 
'~/Documents/Writing/Python Cookbook/source')) 

target_path = Path(os.path.expanduser( 
'~/Dropbox/BO05442/demo/')) 

for source_ file path in source path.glob('*/*.rst'): 
source_file detail = source file path.relative to(source path) 
target_file path = target path / source _ file detail 
shutil.copy( str(source file path), str(target_file path 





























62 第 2 章 语句 与 语法 








本 实例 使 用 了 两 个 路 径 ，source_path 和 target_path。 我 们 已 经 找到 了 source_path 路 径 


下 含有 *.rst 文 件 的 所 有 目录 。 





之 后 的 部 分 ， 我 们 使 用 它 在 target 目录 下 蜀 


[sal 
HH 
二 Ps 




















块 接受 字符 囊 文 伯 
能 够 改变 这 一 点 。 





表达 式 source_file path.relative_to(source_path) 提 供 了 文 伯 
上 Ar 个 区 
EV. | 7 





F 名 的 尾部 ， 即 基本 目录 
折 的 路 径 。 


然 可 以 使 用 pathlib.Path 对 象 进行 大 量 的 路 径 处 理 , 但 在 Python 3.5 中 , 类似 shutil 的 模 
F 名 而 不 是 Path 对 象 ， 所 以 需要 显 式 地 转换 Path 对 象 。 我 们 只 能 希望 Python 3.6 


在 处 理 shutil .copy () 函数 所 出 的 异常 时 可 能 会 出 现 问题 。 我 们 需要 一 个 try 语句 ， 以 便 可 以 


Pp 


运行 


从 某 种 类 型 的 错误 中 恢复 。 如 果 尝 试 


FileNotFoundError: [Errno 2] 
No such file or directory: 
numbers_strings_angd tuples/index.rst' 


如 何 创建 按 正确 顺序 处 理 异 常 的 try 语句 ? 











2.9.2 ”实战 演练 
(1) 编写 try 语句 块 中 需要 使 用 的 语句 。 


trys 
shutil.copy( 


(2) 首先 添加 最 具体 的 异常 类 。 在 本 例 中 ,具体 的 
有 不 同 的 响应 。 


es 
shutil.copy( str(source_file path), 
except FileNotFoundError: 
os.makedir( target_file path.parent 
shutil.copy( str(source_ file path), 


(3) 稍 后 添加 更 通用 的 异常 。 


teY 

shutil.copy( str(source_ file path), 
except FileNotFoundError: 

os.makedirs!( 

shutil.copy( str(source_ file path), 
except OSError as ex: 

















str(source_file path), st 


st 


) 
st 


st 


st 


str(target_file path.parent) 


代码 ， 将 会 看 到 以 下 错误 : 


'/Users/slott/Dropbox/BO05442/demo/ch_01_ 


r(target_file path) ) 


Error 和 更 通用 的 0891 

















FileNotFoung] Error 县 











r(target_file path) 


r(target_file path) 


r(target_file path) 


) 
r(target_file path) 












































print (ex) 
我 们 首先 匹配 了 最 具体 的 异常 ， 随 后 匹配 了 更 通用 的 异常 。 
我 们 通过 创建 缺失 的 目录 处 理 了 FileNotFoundError。 然 后 再 次 使 用 copy () ， 知 道 它 现在 将 
正常 工作 。 
我 们 静默 了 osError 类 的 其 他 异常 。 例 如 ， 如 果 出 现 权限 问题 ， 那 么 该 错误 只 是 简单 地 被 记录 














下 来 。 我 们 的 目标 是 尝试 复制 所 有 文件 ,任何 出 现 问题 的 文件 都 将 被 记录 下 来 ， 但 是 仍然 继续 进行 复 


制 处 理 。 
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2.9.3 工作 原理 


Python 的 异常 匹配 规则 很 简单 。 
口 按 顺序 处 理 sxcept 子 句 。 
口 匹配 实际 异常 与 异常 类 (或 异常 类 的 元 组 )。 如 果 匹 配 ， 则 表示 实际 异常 对 象 ( 或 异常 对 象 的 
任何 基 类 ) 属于 except 子 句 中 的 给 定 类 。 

这 些 规则 说 明了 首先 放置 最 具体 的 异常 类 ， 最 后 放置 更 通用 的 异常 类 的 原因 。 像 Exception 这 
样 的 通用 异常 类 将 匹配 几乎 所 有 类 型 的 异常 。 我 们 不 希望 先 匹 配 通 用 异常 类 ， 因 为 这 样 将 不 会 检查 其 
他 子 句 。 必 须 始 终 把 通用 异常 类 放 在 最 后 。 

BaseException 类 是 一 个 更 通用 的 异常 类 。 没 有 理由 使 用 这 个 类 处 理 异常 。 如 果 BaseException 
类 处 理 异常 ,那么 将 捕获 SystemExit 异常 和 KeyboardInterrupt 异常 , 干扰 杀 死 行为 异常 的 应 用 
程序 的 能 力 。 我 们 仪 在 定义 正常 异常 层次 之 外 的 新 异常 类 时 , 才 将 BaseException 类 作为 超 类 使 用 。 


























































































































2.9.4 补充 知识 
本 实例 包含 了 一 个 柑 套 的 上 下 文 ， 其 中 第 二 个 异常 可 以 被 抛 出 。 思 考 一 下 这 个 except 语句 : 


except FileNotFoundError: 
os.makedirs( str(target_file path.parent) ) 
shutil.copy( str(source_file path), str(target_file path) ) 


如 果 os .makedirs() 或 shutil.copy () 函数 抛 出 男 一 个 异常 ,那么 try 语句 根本 不 会 处 理 该 
异常 。 这 两 个 函数 抛 出 的 任何 异常 都 会 使 整个 程序 骨 溃 。 处 理 该 问题 的 方法 有 两 种 ， 这 两 种 方法 都 包 
含 极 



































可 以 重 写 示例 代码 ， 在 恢复 处 理 时 添加 一 个 毁 套 的 try 语句 : 


try: 
shutil.copy( str(source file path), str(target_file path) ) 
except FileNotFoundError: 

try: 











os.makedirs( str(target_file path.parent) ) 
shutil.copy( str(source_ file path), str(target_file pathn) ) 
except OSError as ex: 


print (ex) 
except OSError as ex: 
print (ex) 


在 本 例 中 ， 有 两 个 地 方 重复 了 osError 处 理 。 在 能 套 的 上 下 文中 ,我 们 将 记录 蜡 常 并 继续 传播 
异常 ， 这 样 可 能 会 终止 程序 。 在 外 层 上 下 文中 ， 执 行 相 同 的 处 理 。 

可 能 终止 程序 是 因为 上 述 代码 可 以 在 处 理 这 些 异常 的 try 语句 中 使 用 。 如 果 没 有 其 他 的 try 语 
句 上 下 文 ， 那么 这 些 未 处 理 的 异常 将 终止 程序 。 

还 可 以 重 写 所 有 语句 , 使 用 机 套 的 try 语句 将 两 种 异常 处 理 策略 分 离 为 局 部 和 全 局 两 个 部 分 。 如 
下 所 示 : 
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shutil.copy( str(source _ file path), str(target_file path) ) 
except FileNotFoundError: 
os.makedirs( str(target_file path.parent) ) 
shutil.copy( str(source_ file path), str(target_file path) ) 
except OSError as ex: 
print (ex) 


在 内 部 的 try 语句 中 使 用 makedirs 进行 处 理 的 副本 仅 处 理 FileNotFoundError 异常 。 任 何 
其 他 异常 都 将 传播 到 外 部 的 try 语句 中 。 在 本 例 中 , 我 们 舱 套 了 异常 处 理 , 以 便 通 用 异常 处 理 包 装具 
体 异 常 处 理 。 









































2.9.5 延伸 阅读 


口 2.10 节 将 介绍 设计 异常 时 的 其 他 一 些 注 意 事项 。 
口 2.11 节 将 介绍 如 何 链接 异常 。 通 过 链接 异常 ， 一 个 异常 类 可 以 包装 多 个 不 同 的 具体 异常 。 


2.10 避免 except : 子 句 带 来 的 潜在 问题 


在 异常 处 理 中 有 一 些 常 见 的 错误 ,这 些 错误 可 能 导致 程序 无 响应 。 

最 常见 的 一 种 错误 就 是 except : 子 句 使 用 不 当 。 如 果 不 谨慎 处 理 现 有 异常 , 那么 可 能 还 会 出 
他 错误 。 

本 实例 将 介绍 一 些 可 以 避免 的 常见 异常 处 理 错误 。 


2.10.1 准备 工作 


2.9 节 介绍 了 设计 异常 处 理 时 的 一 些 注意 事项 。 该 实例 不 鼓励 使 用 BaseException， 因为 可 
干扰 终止 行为 异常 的 Python 程序 。 
本 实例 将 扩展 不 该 做 什么 (what not to do ) 思想 。 
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2.10.2 ”实战 演练 


使 用 sxcept Exception: 语 句 作 为 最 通用 的 异常 管理 。 
处 理 过 多 的 异常 可 能 会 干扰 终止 行为 异常 的 Python 程序 的 能 力 。 当 按 下 Ctl+C ,或 通过 kill -2 
发 送 sIGINT 信和 号 时 ， 我 们 通常 希望 终止 程序 ， 而 不 是 让 程序 写 人 消息 并 继续 和 运行， 或 者 完全 停止 
响应 。 
其 他 应 当 讶 慎 处 理 的 异常 类 包括 : 


D SystemError 










































































口 RuntimeError 








DQ MemoryError 
这 些 异常 通常 意味 着 Python 内 核 的 某 个 地 方 出 现 了 问题 。 与 其 静默 这 些 异常 或 尝试 恢复 , 不 如 终 
止 程序 ， 找 到 根本 原因 ， 并 解决 问题 。 
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2.10.3 工作 原理 


在 处 理 异常 时 应 当 注意 以 下 两 个 问题 。 
口 不 要 捕获 BaseException 类 。 
口 不 要 使 用 不 指明 异常 类 的 except : 语句 。except : 语句 将 匹配 所 有 异常 ， 包 括 应 当 人 避免 处 
理 的 异常 。 

使 用 except BaseException 或 不 指明 特定 类 的 except 语句 可 能 导致 程序 在 需要 终止 时 变 得 
无 响应 。 

退 一 步 讲 ， 如 果 捕 获 了 所 有 异常 ， 那 么 还 可 以 干扰 这 些 内 部 异常 的 处 理 方 式 : 


D systemExit 







































































D KeyboardIinterrupt 











D GeneratorExit 


如 果 静 默 、 包 装 或 重 写 这 些 异 常 ， 那 么 就 可 能 引入 新 问题 ， 甚 至 将 一 个 简单 的 问题 复杂 化 。 


编写 从 不 崩溃 的 程序 是 崇高 的 理想 。 干 扰 Python 的 某 些 内 部 异常 并 不 会 创建 更 可 靠 
的 程序 。 相 反 ， 明 显 的 错误 被 掩盖 了 ， 这 些 错误 交 成 了 难 解 之 谈 。 


























2.10.4 延伸 阅读 


口 2.9 节 介 绍 了 设计 异常 处 理 时 的 一 些 注意 事项 。 
口 2.11 节 将 介绍 如 何 链接 异常 。 通 过 链接 异常 ， 一 个 异常 类 可 以 包装 多 个 不 同 的 具体 异常 。 


2.11 使 用 raise from 语句 链接 异常 


在 某 些 情况 下 ， 我 们 需要 将 一 些 看 似 不 相关 的 异常 合并 为 一 个 通用 异常 。 对 于 复杂 的 模块 来 说 ， 
定义 一 个 通用 的 Error 异常 是 很 常见 的 ， 该 异常 适用 于 模块 中 可 能 出 现 的 多 种 情况 。 

在 大 多 数 情 况 下 ， 通 用 异常 都 是 必须 的 。 如 果 抛 出 模块 的 Error 异常 ,那么 程序 的 某 些 功 能 将 
不 能 正常 运行 。 

在 极 少数 情况 下 ， 出 于 调试 或 监控 的 目的 ,我 们 希望 得 到 异常 的 详细 信息 。 我 们 也 许 想 将 这 些 详 
细 信 息 写 入 日 志 , 或 者 包含 在 电子 邮件 中 。 在 这 种 情况 下， 我们 需要 提供 放大 或 扩展 通用 异常 的 详细 
信息 。 可 以 通过 将 通用 异常 链接 到 根源 异常 来 实现 这 种 功能 。 


2.11.1 准备 工作 


假设 我 们 正在 编写 一 些 复杂 的 字符 串 处 理 ， 和 希望 将 多 种 不 同类 型 的 详细 异常 视 为 一 个 通用 异常 ， 
以 便 隔离 软件 用 户 与 实施 细节 。 我 们 可 以 将 详细 异常 附加 到 通用 异常 。 






























































































































































2.11.2 ”实战 演练 
(1) 创建 一 个 新 的 异常 ， 如 下 所 示 : 
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class Error (Exception): 
pass 


新 的 异常 类 就 定义 好 了 。 
(2) 在 处 理 异常 时 ， 可 以 使 用 raise fronm 语句 链接 异常 类 ， 如 下 所 示 : 


Cr 

something 
except (IndexError, NameError) as exception: 

print ("Expected", exception) 

raise Error("something went wrong") from exception 
except Exception as exception: 

print ("Unexpected", exception) 

raise 


第 一 个 except 子 句 匹配 了 两 种 类 型 的 异常 类 。 无 论 捕 获 到 哪 种 类 型 的 异常 ， 都 会 从 模块 的 通用 























Error 异常 类 中 抛 出 一 个 新 的 异常 。 新 的 异常 将 链接 到 根源 异常 。 第 二 个 except 子 句 匹配 了 通用 的 


















































Exception 类 。 我 们 首先 写 人 了 一 个 日 志 消 息 , 然后 重新 抛 出 了 异常 。 第 二 个 except 子 句 没有 链接 





异常 ， 而 是 在 另 一 个 上 下 文中 继续 异常 处 理 。 


2.11.3 ”工作 原理 





Exception 语句 来 设置 _cause_ 属性 。 





ll 





Python 异常 类 的 _cause 属性 可 以 记录 异常 的 原因 。 可 以 使 用 raise Exception from 























抛 出 这 种 异常 时 的 详细 信息 如 下 所 示 : 


>>> class Error(Exception): 


ye pass 

>>> try: 

'hello world'[99] 

... Eexcept (IndexError, NameError) as exception: 
i raise Error("index problem") from exception 


Traceback (most recent call last): 
File "<doctest default[0]>", line 2, in <module> 
'hello world'[99] 
IndexError: string index out of range 


上 述 异 常 是 以 下 异常 的 直接 原因 : 


Traceback (most recent call last): 
File "/Library/Frameworks/Python.framework/Versions/3.4/lib/python3.4/ 
doctest.py", line 1318, in _ run 
compileflags, 1), test.globs) 
File "<doctest default[0]>", line 4, in <module> 
raise Error("index problem") from exception 
Error: index problem 
上 述 示例 展示 了 一 个 相互 链接 的 异常 。Traceback 消息 中 的 第 一 个 异常 是 IndexError 异常 ， 






















































































直接 原因 。Traceback 中 的 第 二 个 异常 是 通用 Error 异常 ， 这 是 一 个 链接 到 原始 原因 的 通用 汇 
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应 用 程序 将 在 try: 语句 中 抛 出 Error 异常 。 代 码 如 下 所 示 : 


ty 
some_function() 

except Error as exception: 
print (exception) 
print (exception ._ _ cause  ) 


这 个 示例 包含 了 一 个 名 为 some_function() 的 函数 , 它 可 以 抛 出 通用 的 Error 异常 。 如 果 该 函 
数 确 实 抛 出 异常 , 则 except 子 句 将 匹配 通用 的 Error 异常 。 我 们 可 以 打印 异常 的 消息 sxception， 
以 及 异常 的 根本 原因 exception._  _ Cause, 。 在 许多 应 用 程序 中 ， exception. cause 值 可 
能 会 被 写 人 调试 日 志 ， 而 不 是 显示 给 用 户 。 


2.11.4 ”补充 知识 


如 果 在 异常 处 理 代码 中 抛 出 异常 ， 那 么 也 会 创建 一 种 异常 链接 关系 。 这 是 一 种 上 下 文 ( context ) 
关系 ， 而 不 是 原因 ( cause ) 关系 。 

上 下 文 消息 看 起 来 都 很 相似 ， 只 是 消息 略 有 不 同 。 这 说 明 在 处 理 上 一 个 异常 时 ,发 生 了 另 一 个 异 
常 。 第 一 个 Traceback 显示 了 原始 异常 。 第 二 个 消息 是 未 使 用 显 式 连接 抛 出 的 异常 。 

通常 ， 上 下 文 是 无 计划 的 ， 只 是 表示 except 异常 处 理 块 中 出 现 错误 。 例 如 : 


try: 
something 

except ValueError as exception: 
print ("Some message", exceotuib) 






















































































上 述 示例 通过 ValueError 异常 的 上 下 文 抛 出 一 个 NameError 异常 。 NameError 异常 源 于 异常 
变量 被 错误 地 拼写 为 exceotuib。 
2.11.5 延伸 阅读 
口 2.9 节 介 绍 了 设计 异常 处 理 时 的 一 些 注意 事项 。 
口 2.10 节 介 绍 了 设计 异常 处 理 时 的 其 他 一 些 注意 事项 。 


2.12 ”使 用 with 语句 管理 上 下 文 


在 许多 情况 下 ， 脚 本 需要 使 用 外 部 资源 ， 最 常见 的 例子 就 是 磁盘 文件 和 与 外 部 主机 的 网 络 连 接 。 
没有 及 时 断 开 外 部 资源 的 绑 定 ,导致 资源 无 法 释放 是 一 种 常见 的 bug。 这 种 bug 有 时 被 称 为 内 存 泄漏 ， 
因为 每 次 打开 一 个 新 文件 时 都 不 关闭 以 前 使 用 的 文件 ， 所 以 导致 可 用 内 存 减少 。 

我 们 想 隔 离 资源 的 绑 定 ， 确 保 正 确 获 取 和 释放 资源 ， 其 中 一 种 解决 方法 就 是 创建 脚本 使 用 外 部 资 
源 的 上 下 文 。 在 上 下 文 结束 时 ， 程 序 不 再 与 资源 绑 定 ， 我 们 希望 确保 资源 被 释放 。 


2.12.1 准备 工作 
假设 我 们 想 向 一 个 CSV 格式 的 文件 写 人 几 行 数据 。 完 成 写 人 后 ， 想 要 确保 文件 关闭 ， 并 释放 各 种 
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操作 系统 资源 ( 包括 缓冲 区 和 文件 句柄 )。 上 下 文 管理 器 可 以 实现 这 个 设想 ， 它 可 以 确保 文件 正确 关闭 。 


因为 需要 处 理 CSV 文件 ， 所 以 可 以 使 用 csv 模块 处 理 格式 化 的 细节 : 


>>> import csv 


另外 还 需要 使 用 pathlip 模块 查找 待 处 理 的 文件 : 

>>> import pathlib 

为 了 模拟 写 人 ， 我 们 还 准备 了 虚拟 的 数据 源 : 

>>> some source = [[2,3,5], [7,11,13], [17,19,23]] 


上 述 代 码 提供 了 一 个 了 解 with 语句 的 情景 。 
2.12.2 ”实战 演练 























(1) 通过 打开 文件 或 使 用 urllib.request .urlopen () 创 建 网 络 连接 创建 上 下 文 ,其 他 常见 的 上 
下 文 包括 zip 文件 和 tar 文件 。 


target_ path = pathlib.Path('code/test.csyv') 
with target_path.open('w', newline='') as target file: 


[2) 添加 所 有 处 理 过 程 ， 确 保 在 with 语句 内 缩 进 。 


target_path = pathlib.Path('code/test.csv') 








with target_path.open('w', newline='') as target file: 
writer = csv.writer (target_file) 
writer.writerow(['column', 'data', 'headings']) 





for data in some_source: 
writer.writerow (data) 


(3) 在 使 用 文件 作为 上 下 文 管理 器 时 ， 文 件 将 在 缩 进 的 上 下 文 代码 块 执行 结束 后 自动 关闭 。 即 使 
出 现 异 常 ， 文 件 仍然 正常 关闭 。 在 关闭 上 下 文 并 释放 资源 后 ， 继 续 执 行 上 下 文 代码 块 下 面 的 处 理 。 


target_path = pathlib.Path('code/test.csv') 
with target_path.open('w', newline='') as target_ file: 
































writer = csv.writer(target_file) 

writer.writerow(['column', 'headings']) 

for data in some_source: 
writer.writerow (data) 


print ('finished writing', target_path) 


with 上 下 文 之 外 的 语句 将 在 上 下 文 关闭 后 执行 ， 由 target_path.open() 打 开 的 文件 将 正确 
关闭 口 

即使 在 with 语句 内 部 抛 出 异常 ,文件 仍然 正确 关闭 。 虽 然 上 下 文 管理 器 已 经 得 到 了 蜡 常 信息 , 但 
是 它 仍然 可 以 关闭 文件 并 允许 传播 异常 。 


2.12.3 工作 原理 
代码 通知 上 下 文 管理 器 退出 的 方式 有 两 种 : 









































2.12 ”使 用 with 语 多 管理 上 下 文 69 





口 没有 异常 ， 正常 退出 ; 

口 抛 出 异常。 

在 任何 情况 下 ， 上 下 文 管理 器 都 将 程序 与 外 部 资源 分 开 ， 可 以 关闭 文件 、 删 除 网 络 连接 、 提 交 或 
回 滚 数据 库 事务 ， 以 及 释放 锁 。 
可 以 通过 在 with 语句 内 添加 手动 异常 来 进行 验证 。 下 面 的 代码 可 以 证 明文 件 正确 关闭 : 


try: 
target_path = pathlib.Path('code/test.csv') 
with target_ path.open('w', newline='') as target_ file: 
writer = csv.writer (target_file) 
writer.writerow(['column', 'headings']) 
for data in some_source: 
writer.writerow(data) 
raise Exception("Just Testing") 
except Exception as exc: 
print (target_file.closed) 
print (exc) 
print ('finished writing', target path) 


在 本 例 中 ， 核 心 处理 包 装 在 try 语句 中 。 因 此 ， 在 第 一 次 写 入 CSV 文件 之 后 就 可 以 抛 出 异常 。 
抛 出 异常 时 ， 可 以 打印 输出 异常 。 此 时 ,文件 也 将 被 关闭 。 输 出 如 下 所 示 : 


True 
Just Testing 
finished writing code/test.csyv 


这 个 例子 说 明了 文件 被 正确 关闭 ， 男 外 还 展示 了 异常 相关 的 消息 ， 以 确认 该 异常 是 我 们 手动 抛 出 
的 异常 。 输 出 文件 test.csv 只 有 从 变量 some_source 中 获取 的 第 一 行 数据 。 






































2.12.4 ”补充 知识 


Python 提供 了 多 种 上 下 文 管理 器 。 打 开 的 文件 是 一 种 上 下 文 管理 器 ， 由 urllib.request. 
urlopen () 创 建 的 网 络 连 接 同样 也 是 一 种 上 下 文 管理 器 。 

对 于 所 有 文件 操作 和 网 络 连接 ， 都 应 该 通过 with 语句 用 作 上 下 文 管理 器 。 我 们 很 难 找 到 关于 这 
一 规则 的 一 种 例外 情况 。 

实际 上 , 因为 aecimal 模块 使 用 了 上 下 文 管理 器 , 所 以 允许 对 小 数 运算 的 方法 进行 局 部 修改 。 可 
以 使 用 decimal .1localcontext () 困 数 作为 上 下 文 管理 器 ,改变 由 with 语句 隔离 的 舍 和 人 规则 或 精度 。 

还 可 以 自 定 义 上 下 文 管理 器 。context1ib 模块 包含 很 多 函数 和 装饰 器 ， 可 以 帮助 我 们 根据 资源 
创建 上 下 文 管理 器 ， 而 不 是 显 式 地 提供 资源 。 

当 使 用 锁 时 ,with 上 下 文 管理 器 是 获取 和 释放 锁 的 理想 方式 。 关 于 threading 模块 创建 的 锁 对 
象 与 上 下 文 管理 器 之 间 的 关系 ， 请 参阅 https://docs.python.org/3/library/threading.html#with-locks。 


2.12.5 ”延伸 阅读 


关于 with 语句 的 起 源 ， 请 参阅 https:/www.python.org/dev/peps/pep-0343/。 
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本 章 主要 介绍 以 下 实例 。 
口 使 用 可 选 参数 设计 函数 
口 使 用 灵活 的 关键 字 参 数 
口 使 用 * 分 隔 符 强制 使 用 关键 字 参 数 

口 编写 显 式 的 函数 参数 类 型 

口 基于 偏 函 数 选择 参数 顺序 

口 使 用 RST 标记 编写 清晰 的 文档 字符 串 
口 围绕 Python 栈 限制 设计 递归 函数 

口 根据 脚本 / 库 转 换 规 则 编写 可 重用 脚本 






















































































3.1 引言 





函数 定义 是 一 种 将 较 大 问题 分 解 为 较 小 问题 的 方法 。 几 个 世纪 以 来 , 数学 家 们 一 直 采 用 这 种 方法 。 


这 种 方法 也 可 以 将 Python 程序 打包 为 更 易 管理 的 块 。 








本 章 将 介绍 一 些 函 数 定义 技术 , 包括 处 理 灵活 参数 的 方法 以 及 基于 某 些 高 级 设计 原则 组 织 参 数 的 


方法 。 











本 章 还 将 介绍 Python 3.5 的 typing 模块 ,以 及 如 何 为 函数 创建 更 正式 的 注释 ,我们 可 以 使 用 mypy 





项 目 对 数据 类 型 做 出 更 正式 的 断言 。 


3.2 ”使 用 可 选 参数 设计 函数 











定义 函数 时 ， 通 常 需 要 可 选 参 数 。 可 选 参 数 让 我 们 能 够 编写 更 灵活 、 应 





用 更 广泛 的 函数 。 























我 们 也 可 以 认为 这 是 一 种 创建 一 系列 密切 相关 的 函数 的 方法 ,所 有 函数 都 共享 相同 的 名 称 , 但 是 








可 能 有 点 令 人 困惑 。 因 此 ， 我 们 将 更 多 地 关注 可 选 参数 。 
int () 图 数 是 可 选 参数 的 一 个 典型 示例 ， 它 有 两 种 形式 。 





每 个 函数 的 参数 集合 都 稍 有 不 同 ， 这些 参数 集合 称 为 签名 ( signature )。 多 个 函数 共享 相同 的 名 称 ， 这 
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口 int (str): 例如 ，int ('3551') 的 值 为 355。 本 示例 没有 为 可 选 的 base 参数 提供 值 ， 而 是 
使 用 了 默认 值 10。 
口 int(str，base): 例如 ，'int('0x163'，16) 的 值 为 355。 本 示例 指定 了 base 参数 值 。 


3.2.1 准备 工作 


许多 游戏 都 依赖 于 货 子 的 集合 。 赌 场 游 戏 Craps 使 用 2 个 山子 ，Zicj 、Greed 或 Ten Thousand 等 
游戏 使 用 6 个 骨 子 。 这 些 游 戏 的 变化 形式 可 能 使 用 更 多 的 骨 子 。 
ll 写 一 个 可 以 处 理 各 种 山 子 游戏 变 体 的 找 骨 子 函数 是 很 方便 的 。 如 何 编 写 一 个 适用 于 任何 数量 懂 
子 并 将 2 个 骨 子 作 为 默认 值 的 山子 模拟 器 呢 ? 
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3.2.2 ”实战 演练 


设计 具有 可 选 参 数 的 函数 有 两 种 方法 。 
口 从 一 般 到 特殊 : 从 设计 最 通用 的 解决 方案 开始 ， 为 最 常见 的 情况 提供 便捷 的 默认 值 。 
口 从 特殊 到 一 般 : 从 设计 多 个 相关 的 函数 开始 ， 然 后 将 它们 合并 为 一 个 覆盖 所 有 情况 的 通用 郴 
数 ， 选 择 其 中 一 个 原始 函数 作为 默认 值 。 
1. 从 一 般 到 特殊 的 设计 方法 
当 遵循 从 一 般 到 特殊 的 策略 时 , 应 当 首 先 确定 所 有 需求 。 通 常 通过 根据 需求 引入 变量 来 实现 这 一 点 。 
(1) 总 结 掷 仍 子 的 需求 。 
口 Craps: 2 个 骨 子 。 
口 Zoo 的 第 一 掷 : 6 个 仍 子 。 
口 Zo 允 的 随后 掷 : 1 到 6 个 仍 子 。 
上 述 需 求 列 表 说 明了 掷 半 个 仍 子 的 通用 主题 。 
(2) 使 用 显 式 的 参数 替换 所 有 字面 值 来 重 写 需求 。 用 参数 n 替换 所 有 数字 ， 并 显示 引入 的 这 个 新 
参数 的 值 。 
口 Craps: n 个 骨 子 ,， n= 2。 
口 Zo 允 的 第 一 掷 : 7 个 仍 子 ,2 = 6。 
口 Zox 允 的 后 续 掷 : 7 个 山 子 ，1 < n < 6。 
该 步 又 的 目标 是 确保 所 有 变量 都 能 用 一 个 字母 来 表示 。 在 更 复杂 的 问题 中 ,看 起 来 相似 的 事物 可 
能 没有 共同 的 规范 。 
我 们 同样 需要 确保 已 经 正确 地 参数 化 了 每 个 函数 。 在 更 复杂 的 情况 下 ， 可 能 存在 不 需要 真正 参数 
化 的 值 ， 它 们 可 以 保持 为 常量 。 
(3) 编写 符合 通用 模式 的 函数 。 


>>> def dice(n): 
return tuple(die() for x in range(n)) 


在 第 三 种 需求 中 ， 我 们 标识 了 一 种 约束 ，1 < n < 6。 我 们 需要 确定 该 约束 是 否 是 dice() 函数 的 
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一 部 分 ,或 者 是 否 使 用 aice () 函数 的 模拟 应 用 程序 对 山子 施加 了 该 约束 。 

在 本 例 中 ,约束 是 不 完整 2 Zonk 规则 要 求 未 被 掷 出 的 仍 子 形成 某 种 得 分 模式 。 不 仅 要 约束 仍 子 
的 数量 在 1 和 6 之 间 ， 还 应 约束 游戏 状态 。 似 乎 没有 充足 的 理由 将 dice () 函数 与 游戏 状态 绑 定 。 

(4) 为 最 常见 的 用 例 提供 默认 值 。 如 果 最 频繁 模拟 的 游戏 是 Craps， 人 


>>> def dice(n=2): 
return tuple(die() for x in range(n)) 


现在 ， 对 于 Craps 游戏 ， 可 以 简单 地 使 用 dice () 。 对 于 Zonk 游 戏 ， 则 需要 使 用 dice (6)。 
2. 从 特殊 到 一 般 的 设计 方法 
当 遵循 从 特殊 到 一 般 的 策略 时 ， 首 先 应 当 设 计 多 个 独立 的 函数 ， 并 寻找 它们 共同 的 特征 。 
(1) 编写 函数 的 一 个 版 本 。 首 先 从 Craps 游戏 开始 ， 因 为 它 看 起 来 最 简单 。 


>>> import random 
>>> def die(): 
EE return random.randint(1,6) 
>>> def craps(): 
return (die(), die()) 


我 们 定义 了 一 个 辅助 函数 aie () ， 该 函数 封装 了 一 个 有 时 被 称 为 “标准 仍 子 ”的 基本 事实 。 有 5 
种 正 多 面体 可 以 作为 标准 崩 子 ， 可 以 产生 四 面 、 六 面 、 八 面 、 十 二 面 和 二 十 面 的 山子 。 六 面 山 子 历史 
悠久 ， 最 早 用 羊 踩 骨 (astragali ) 制作 ， 因 为 它 很 容易 修剪 为 六 边 形 立方 体 。 

基础 的 aie () 函数 的 示例 如 下 : 


>>> random.seed(113) 
>>> die(), die() 
(1, 6) 


我 们 掷 了 2 个 鹏 子 ， 并 显示 这 些 值 是 如 何 组 合 起 来 的 。 
为 Craps 游戏 设计 的 函数 运行 结果 如 下 : 


>>> craps() 
(6, 3) 
>>> craps() 
(1, 4) 


该 示例 显示 了 一 些 一 次 掷 2 个 蜗 子 的 Craps 游戏 的 结 
(2) 编写 函数 的 另 一 个 版 本 。 


>>> def zonk(): 
return tuple(die() for x in range(6)) 


我 们 使 用 4 成 器 表达 式 创 建 了 一 个 包含 6 个 蜗 子 的 元 组 对 象 。 第 8 章 将 深入 介绍 生成 器 表达 式 。 
生成 器 表达 式 中 有 一 个 被 忽略 的 变量 x。 该 表达 式 通 常 被 写 为 tuple(die() for _ in 
range (6))。 变 量 是 一 个 有 效 的 Python 变量 名 ， 该 名 称 可 以 作为 一 个 提示 ， 说 明 我 们 不 希望 看 到 这 
个 变量 的 值 。 

使 用 zonk () 函数 的 示例 如 下 所 示 : 


>>> zonk() 
(5, 3, 2, 4, 1, 1) 
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该 示例 显示 了 一 次 掷 6 个 货 子 的 游戏 结果 。 结 果 里 有 一 个 短 顺 子 (1 到 5) 以 及 一 对 1。 在 Craps 
游戏 的 某 些 版 本 里 ， 这 是 一 个 高 分 结果 。 

(3) 找到 两 个 函数 的 共同 功能 。 ey 需要 重 写 各 种 函数 来 找到 一 个 通用 设计 。 在 许多 情 
况 下 ， 我 们 会 引入 额外 的 变量 来 代替 常量 或 其 他 假设 。 

在 本 例 中 ， 我 们 司 羽 活化 丙 元 组 的 创建 方 法。 可 忆 U 冯 并 一 个 基于 range(2) 的 生成 器 表达 式 ， 计 
算 两 次 die () 函数 ， 而 不 是 硬 绑 定 aie ( ) 函数 的 两 次 求 值 结果 

>>> def craps() : 

return tuple(die() for x in range(2)) 


对 于 解决 特定 的 双 虎 子 问题 ,这 种 方法 看 起 来 需要 更 多 的 代码 。 从 长 远 来 看 ,使 用 通用 函数 意味 
着 可 以 消除 许多 特定 的 函数 。 
(4) 合并 这 两 个 函数 。 这 个 步骤 通常 涉及 暴露 以 前 是 常量 或 者 其 他 硬 绑 定 假设 的 变量 


>>> def dice(n): 
return tuple(die() for x in range(n)) 


该 示例 提供 了 一 个 涵盖 Craps 和 Zonk 需求 的 通用 孔 数 。 


>>> dice(2) 

(3, 2) 

>>> dice(6) 

(S57 3 3 37 4) 


(5) 确定 最 常见 的 用 例 ， 将 其 设置 为 参数 的 默认 值 。 如 果 最 频繁 模拟 的 游戏 是 Craps， 那么 可 以 进 
行 如 下 设计 。 


>>> def dice (n=2) : 
return tuple(die() for x in range(n)) 


现在 ， 对 于 Craps 游戏 ， 可 以 简单 地 使 用 aice () 。 对 于 Zonk 游 戏 ， 则 需要 使 用 dice (6)。 


3.2.3 工作 原理 


Python 提供 参数 值 的 规则 非常 灵活 ,很 多 规则 可 以 确保 每 个 参数 都 有 一 个 参数 值 。 提 供 参数 值 的 
规则 归纳 如 下 。 

(1) 将 每 个 参数 设置 为 所 提供 的 默认 值 。 

(2) 对 于 没有 名 称 的 参数 ， 按 位 置 将 参数 值 赋 给 参数 。 

(3) 对 于 有 和 名称 的 参数 ， 例 如 aice (n = 2) ， 使 用 名 称 分 配 参 数值 。 同 时 按 位 置 和 名 称 为 一 个 参 
数 赋值 是 错误 的 。 

(4) 如 果 参 数 没有 参数 值 ， 那 么 这 明显 是 错误 的 。 

这 些 规则 人 允许 我 们 根据 需要 提供 默认 值 ， 还 允许 混合 位 置 参数 值 与 命名 参数 值 。 默 认 值 是 参数 可 
选 的 根本 原因 。 

使 用 可 选 参数 源 于 两 个 方面 的 考虑 。 

口 可 以 参数 化 处 理 过 程 吗 ? 
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口 该 参数 最 常见 的 参数 值 是 什么 ? 


将 参数 引入 处 理 的 定义 可 能 具有 挑战 性 。 在 某 些 情况 下 ， 





换 字面 值 (例如 2 或 6)。 








然而 ， 在 某 些 情况 下 ， 


它 有 助 于 编写 代码 ， 我 们 可 以 用 参数 替 














字面 值 不 需要 替换 为 参数 ， 保 留 字面 值 即 可 。 并 非 所 有 场合 都 需 用 参数 替 


























换 字 面值 。 例 如 ，die() 
通用 类 型 的 骨 子 。 


3.2.4 ”补充 内 容 























函数 使 用 字面 值 6， 因 为 我 们 只 对 标准 的 立方 山子 感 兴趣 ， 

















没有 必要 做 一 个 


如 果 想 要 考虑 得 非常 周全 ， 那 么 可 以 编写 更 专用 的 函数 。 这 些 函 数 可 以 简化 应 用 程序 : 





>>> def craps() : 


return dice(2) 


>>> def zonk() : 


return dice(6) 


craps () 和 zonk() 依 赖 于 通用 也 数 dice()， aice() 函数 又 依赖 于 另 一 个 函数 die ()。3.6 节 


将 重新 讨论 这 种 设计 。 








这 个 依赖 关系 栈 中 的 每 一 层 都 引入 了 一 个 便 提 
思想 有 时 也 称 为 组 块 (chunking )， 这 是 一 种 通过 
这 种 设计 模式 的 常见 扩展 是 在 函数 的 层次 结构 中 提供 多 个 级 别 的 参数 。 如 曙 


数 ， 那 么 应 同时 为 dice( 






























































) 国 数 和 diel ) 函数 提供 参数 。 














E 的 抽象 ， 使 我 们 不 必 理 解 太 多 的 细节 。 分 层 抽象 的 
隔离 细节 来 管理 复杂 度 的 方法 。 


对 于 这 种 更 复杂 的 参数 化 , 需要 在 层次 结构 中 引入 更 多 具有 默认 值 的 参数 。 首 先 为 aie () 添加 一 
个 参数 ， 该 参数 必须 具有 上 默认 值 ， 这 样 就 不 会 破坏 现 有 的 测试 用 例 : 


>>> def die(sides=6) : 
return random.randint(1,6) 




















在 抽象 依赖 关系 栈 的 底部 引入 该 参数 之 后 ， 需 要 将 该 参数 提供 


























>>> def dice(n=2, sides=6): 


， 使 用 dice( 





return tuple(die(sides) for x in range(n)) 


) 函数 的 方法 有 许多 种 。 





的 参数 全 部 为 默认 值 : aice () 很 好 地 覆盖 了 Craps 游戏 的 需求 。 





口 口 口 兴 : 
PE 


。 例 如 ，dic 











数 

数 的 参数 全 部 为 位 置 参 数 : gice (6，6) 将 覆盖 Zonk 游 戏 的 需求 。 
ee 入 名 参数 : 必须 首先 提供 
，Ssides = 8) 将 覆盖 使 用 2 个 八 面 货 子 的 游戏 需求 。 














本 

















口 
当 函 数 参数 全 部 使 
在 本 示例 中 ， 抑 数 调 月 














参数 。 


用 命名 参数 时 ， 参 数 的 顺序 无 关 紧 要 。 

















给 更 高 级 别 的 函数 : 


置 参数 值 ， 因 为 参数 的 顺序 很 本 





昌 栈 只 有 两 层 。 在 更 复杂 的 应 用 中 ， 可 能 需要 在 层次 结构 














wh 





i 入 名 参 数 ; dice (sides=4, n=4) 图 数 将 处 理 模拟 掷 4 个 四 面 骨 子 的 情况 


上 引入 多 个 层次 的 
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3.2.5 ”延伸 阅读 


口 3.6 节 将 扩展 本 实例 中 的 一 些 设计 。 

D 本 实例 使 用 了 涉及 不 可 变 对 象 的 可 选 参数 ， 其 中 使 用 的 不 可 变 对 象 主要 是 数字 。 第 4 章 将 讨 
论 具 有 可 改变 的 内 部 状态 的 可 变 对 象 。4.15 节 将 介绍 在 设计 以 可 变 对 象 为 可 选 参数 的 函数 时 ， 
需要 注意 的 一 些 重要 事项 。 


3.3 ”使 用 灵活 的 关键 字 人 参数 


某 些 设计 问题 涉及 用 已 知 值 求 解 未 知 值 的 方程 式 。 例 如 ， 速 度 、 时 间 和 距离 有 一 个 简单 的 线性 关 
系 ， 在 给 定 任意 两 个 值 的 情况 下 ， 可 以 求 出 另外 一 个 值 。 
Dad=rxt 
Dr=ada/t 
Dit=ad/r 

例如 ， 在 设计 电路 时 ， 基 于 欧姆 定律 使 月 
电流 和 电压 联系 在 一 起 。 

在 某 些 情况 下 ,我 们 希望 提供 一 个 简单 的 、 高 性 能 的 软件 实现 ， 可 以 基于 已 知 条 件 和 未 知 条 件 执 
行 三 个 不 同 计算 中 的 任意 一 个 。 我 们 不 想 使 用 一 个 通用 代数 框架 , 而 是 想 把 三 种 方案 组 合 为 一 个 简单 、 
高 效 的 函数 。 


3.3.1 准备 工作 


本 实例 将 构建 一 个 函数 ， 它 可 以 通过 包含 给 定 任意 两 个 已 知 值 求 一 个 未 知 值 的 三 个 求解 方案 , 来 
解决 Rate-Time-Distance (RID ) 计算 。 只 需 稍微 改变 一 下 变量 名 称 ,该 函数 就 可 以 适用 于 大 量 的 现 
实 问题 。 

本 实例 的 目的 不 是 简单 地 获取 一 个 值 。 因 此 , 可 以 通过 创建 一 个 包含 这 三 个 值 的 Python 字典 来 泛 
化 这 个 问题 。 第 4 章 将 进一步 讨论 字典 。 

当 出 现 问题 时 ， 本 实例 将 使 用 warnings 模块 而 不 是 抛 出 异常 


>>> import warnings 


有 时 产生 一 个 值得 怀疑 的 结果 比 停止 处 理 更 有 帮助 。 









































组 类 似 的 方程 。 在 这 种 情况 下 ， 这 些 方 程式 把 电阻 、 
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3.3.2 ”实战 演练 


求解 方程 中 的 每 一 个 未 知 数 。 前 面 已 经 说 明了 RTD 的 计算 方法 : d=rxt。 
(1) 该 计算 可 以 推导 出 三 个 独立 的 表达 式 。 


DQ distance = rate * time 




















口 rate = distance / time 





DQ time = distance / rate 
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(2) 当 某 个 值 未 知 时 ， 就 设 定 该 值 为 None。 根 据 这 个 原则 将 各 个 表达 式 包装 在 if 语句 中 。 


if distance is None: 

distance = rate * time 
elif rate is None: 

rate = distance / time 
elif time is None: 

time = distance / rate 


(3) 参考 2.6 节 设 计 复 杂 的 if.. .elif 链 。 添 加 else 月 演 选 项 的 变 体 。 


else: 
warnings.warning( "Nothing to solve for" ) 


(4) 构建 作为 结果 的 字典 对 象 。 在 简单 情况 下 ,可 以 只 使 用 vars () 函数 把 所 有 局 部 变量 都 放 入 一 
典 


个 结果 字典 。 在 某 些 情况 下 ， 我 们 可 能 不 想 把 有 些 局 部 变量 放 和 结果 字典 ,那么 这 就 需要 显 式 地 构建 
字典 


子 Ao 







































































return dict (distance=distance, rate=rate, time=time) 


(5) 使 用 关键 字 参 数 把 所 有 语句 包装 为 一 个 函数 。 


def rtd(distance=None, rate=None, time=None): 
if distance is None: 
distance = rate * time 
elif rate is None: 
rate = distance / time 
elif time is None: 
time = distance / rate 
else: 
warnings.warning( "Nothing to solve for" ) 
return dict (distance=distance, rate=rate, time=time) 


发 的 函数 如 下 所 示 : 


>>> def rtd(distance=None, rate=None, time=None): 


if distance is None: 

a distance = rate * time 

i elif rate is None: 

i rate = distance / time 

Si elif time is None: 

a time = distance / rate 

富 else: 

六 warnings.warning( "Nothing to solve for" ) 

RA return dict(distance=distance, rate=rate, time=time) 


>>> rtd(distance=31.2, rate=6) 

{'distance': 31.2, 'time': 5.2, 'rate': 6} 

上 述 示例 表明 以 每 小 时 6 海里 的 速度 行驶 31.2 海里 需要 5.2 小 时 。 
以 下 操作 可 以 使 输出 格式 更 加 美观 : 


>>> result= rtd(distance=31.2, rate=6) 

>>> ('At {rate}kt, it takes ' 

... '{time}hrs to cover {distance}nm').format map (result) 
'At 6kt, it takes 5.2hrs to cover 31.2nm' 


为 了 拆 分 长 字符 串 ， 我 们 参考 了 2.3 节 的 实例 。 
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3.3.3 工作 原理 


因为 本 实例 为 所 有 参数 提供 了 默认 值 ， 所 以 可 以 只 为 三 个 参数 中 的 两 个 参数 提供 参数 值 ， 函 数 将 
会 求 出 第 三 个 参数 。 这 样 就 避免 了 编写 三 个 不 同 的 函数 。 

对 于 本 实例 ,返回 一 个 字典 对 象 作为 最 终结 果 并 不 是 至 关 重 要 的 。 但 是 ， 这 种 方法 很 方便 ， 无 论 
已 经 提供 了 哪些 参数 值 ， 都 可 以 获得 一 个 统一 的 结果 。 






























































3.3.4 补充 知识 


对 于 本 实例 ， 还 有 一 种 更 灵活 的 方法 。Python 函数 有 一 个 所 有 其 他 关键 字 ( all other keywords ) 
参数 ， 使 用 ** 作 为 前 级 。 示 例如 下 所 示 : 


def rtd2(distance, rate, time, **keywords): 
print (keywords) 


使 用 **keywords 参数 会 把 任何 其 他 关键 字 参 数值 收集 到 一 个 字典 中 。 可 以 使 用 额外 的 参数 调用 
这 个 函数 。 示 例如 下 : 

rtd2 (rate=6, time=6.75, something_else=60) 

keywords 参数 的 值 是 一 个 值 为 {' something_else': 60} 的 字典 对 象 。 可 以 使 用 典型 的 字典 处 
理 技术 处 理 该 字典 对 象 。 该 字典 中 的 键 和 值 就 是 在 函数 被 调用 时 提供 的 参数 名 称 和 参数 值 。 

可 以 利用 这 个 特性 使 用 keywords 提供 所 有 参数 值 。 


def rtd2(**keywords): 
rate= keywords.get ('rate', None) 
time= keywords.get ('time', None) 
distance= keywords.get ('distance', None) 
etc. 


该 版 本 的 函数 使 用 字典 的 get () 方 法 查找 字典 中 给 定 的 键 。 如 果 键 不 存在 ， 返 回 默认 值 None。 

( 返回 默认 值 None 是 get () 方 法 的 默认 行为 。 本 示例 中 包含 一 些 用 于 说 明 处 理 过 程 的 元 余 信 息 。 
对 于 一 些 非常 复杂 的 情况 ， 可 以 提供 None 之 外 的 默认 值 。) 

这 种 方法 的 优点 在 于 更 灵活 ， 而 缺点 在 于 实际 的 参数 名 称 很 难 辨 别 。 

我 们 还 可 以 根据 3.7 节 的 实例 提供 一 个 良好 的 文档 字符 串 。 尽 管 如 此 ， 显 式 提供 参数 名 称 似乎 比 
通过 文档 隐 式 说 明 更 好 。 














































































































3.3.5 延伸 阅读 
3.7 节 将 讨论 函数 的 文档 。 
3.4 ”使 用 * 分 隔 符 强制 使 用 关键 字 参 数 


在 某 些 情况 下 ， 函 数 拥有 大 量 的 位 置 参 数 。 或 许 我 们 遵循 了 3.2 节 中 的 实例 ,设计 了 一 个 具有 非 
常 多 参数 的 函数 ， 很 容易 让 人 混淆 。 
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实际 上 ， 有 三 个 以 上 参数 的 函数 就 容易 让 人 混淆 。 当 参数 太 多 时 ， 人 们 很 难 记 住 参数 的 顺序 。 
3.4.1 准备 工作 


本 节 讨 论 一 个 具有 许多 参数 的 函数 。 我 们 将 使 用 一 个 函数 编写 一 个 风寒 表 ， 并 把 数据 写 人 一 个 
CSV 格式 的 输出 文件 。 
该 函数 需要 提供 多 个 参数 : 一 个 温度 范围 、 一 个 风速 范围 和 待 创建 的 输出 文件 的 信息 。 
基本 公式 如 下 : 

TT PD =13.12+0.62157,— 11.37V "+ 0.3965T,V 

风寒 温度 .基于 空气 温度 T,( 单位 为 摄氏 度 ) 和 风速 (单位 为 KPH )。 
对 于 美国 人 ， 这 个 公式 需要 做 一 些 转换 。 

口 把 下 转换 为 C: C=5(F -32)/9 

口 把 风速 蕊 , ( MPH ) 转换 为 Vi ( KPH ): Vi= ,x 1.609 344 

口 结果 需要 从 辫 转 换 回 下: FF=32 + C(9/5) 

本 实例 不 会 解决 这 些 问题 ， 这 些 问 题 将 作为 练习 留 给 读者 。 

一 种 创建 风寒 表 的 方法 如 下 所 示 


import pathlib 










































































def Twc(T, V): 
Beturen L312 PE O06215*T re L137*ViXO T603965*T*VEtO. 16 


def wingd_chill(start_T, stop_T, step_T, 
start_V, stop_V, step_V, path): 
vrWind .Chill TaBle. 








with path.open('w', newline='') as target: 
writer= csv.writer (target) 
heading = [None]+list (range (start_T, stop_T, step_T)) 





writer.writerow (heading) 
for V in range(start_V, stop_V, step_V): 
row = [V] + [Twc (T, V) 
for T in range(start_T, stop_T, step_T)] 
writer.writerow (row) 


按 2.12 节 实 例 所 示 ， 我 们 使 用 with 上 下 文 打开 了 一 个 输出 文件 。 在 该 上 下 文 
文件 中 写 入 内 容 。 第 9 章 将 深入 讨论 CSV 文件 。 

我 们 使 用 表达 式 [None]+list (range (start_T，stop_T，step_T) ) 创建 了 一 个 标题 行 。 该 
表达 式 包括 一 个 列表 字面 量 和 一 个 能 够 生成 列表 的 生成 器 表达 式 。 第 4 章 将 讨论 列表 ， 第 8 章 将 讨论 
生成 器 表达 式 。 

类 似 地 ， 生 成 器 表达 式 [Twc(T，V) for T in range(start_T，stob_T，step_T)] 构 建 了 
表格 的 每 个 单元 格 。 这 个 表达 式 是 一 个 构建 列表 对 象 的 解析 式 。 列 表 由 风寒 函数 Twc () 计算 出 的 值 组 
成 。 我 们 根据 表 中 的 行 提供 风速 ， 根 据 表 中 的 列 提供 温度 。 
虽然 有 些 细节 后 文才 会 讲 ， 但 能 够 看 出 aef 行 有 问题 : 看 起 来 很 复杂 。 
































， 向 CSV 输出 
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问题 就 在 于 wind_chill() 函数 有 7 个 位 置 参 数 。 在 使 用 该 函数 时 ， 可 能 会 看 到 以 下 代码 : 


import pathlib 
p=pathlib.Path('code/wc.csv') 
wingd chill(0,-45;=5.;0,20,2.p) 


这 些 数字 代表 什么 含义 ? 怎样 才能 说 明 这 上段 代码 的 功能 ? 
3.4.2 ”实战 演练 


当 参 数 太 多 时 ， 使 用 关键 字 参 数 代替 位 置 参 数 更 有 帮助 。 

Python 3 有 一 种 强制 使 用 关键 字 参 数 的 技术 。 可 以 使 用 * 作 为 两 组 参数 之 间 的 分 隔 符 。 

(1) 在 * 之 前 ， 参 数值 可 以 按 位 置 提供 或 者 以 关键 字 命名 。 本 示例 没有 这 种 参数 。 

(2) 在 * 之 后 ， 参 数值 必须 以 关键 字 的 形式 提供 。 在 本 示例 中 ， 所 有 参数 都 属于 这 种 参数 。 
对 于 本 示例 ， 最 终 的 函数 如 下 所 示 : 

def wingd_ chill(*, start_T, stop_T, step_T, start_V, stop_V, step_V, path): 
在 该 函数 中 使 用 令 人 混淆 的 位 置 参数 时 ， 将 会 出 现 以 下 提示 : 


>>> wind chill(0,-45,-5,0,20,2,p) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: wind chill() takes 0 positional arguments but 7 were given 


该 函数 的 正确 调用 方式 如 下 所 示 : 


wind_chill (start_T=0, stop_T=-45, step_T=-5, 
start_V=0, stop_V=20, step_V=2, 
path=p) 


使 用 强制 关键 字 参 数 迫 使 我 们 在 每 次 使 用 这 个 复杂 函数 时 都 需要 编写 一 个 清晰 的 语句 。 
3.4.3 工作 原理 


* 字 符 在 函数 定义 中 有 两 层 含义 。 
口 作为 特殊 参数 的 前 级 ， 接 收 所 有 未 匹配 的 位 置 参数 。 通 常 使 用 *args 收集 所 有 位 置 参数 ， 并 
把 这 些 参数 打包 为 一 个 名 为 args 的 参数 。 
口 单独 使 用 ， 作 为 可 以 按 位 置 提 供 的 参数 和 必须 以 关键 字 提 供 的 参数 之 间 的 分 隔 符 。 

print () 函数 就 是 典型 的 例证 , 该 函数 有 三 个 强制 关键 字 参 数 : 输出 文件 、 字 段 分 隔 字符 串 和 行 
结束 字符 串 。 


3.4.4 补充 知识 
当然 ， 还 可 以 将 这 种 技术 以 及 各 种 参数 的 默认 值 结合 起 来 。 例 如 ， 可 以 按 如 下 方式 修改 函数 : 


import sys 
def wind chill(*, start_T, stop_T, step_T, start_V, stop_V, step_V, output=sys. 
stdout): 
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修改 函数 后 ， 使 用 函数 的 方式 有 两 种 。 
口 在 控制 台 上 打印 表格 。 


wind_chilll( 
start_T=0, stop_T=-45, stéeép_T=-5,; 
start_V=0, stop_V=20, step_V=2) 








口 写 人 文件 。 
path = pathlib.Path("code/wc.csv") 
with path.open('w', newline='') as target: 


wingd_ chill (output=target, 
start._T=0, stop_T=-45, step_T=-5, 
start Ve0; StoOp-V=20, Step Va2 





相对 于 更 通用 的 函数 设计 方法 ， 上 述 示例 根据 3.2 节 的 实例 改变 了 设计 方法 。 


3.4.5 ”延伸 阅读 


口 该 技术 的 另 一 个 应 用 请 参阅 3.6 节 。 


3.5 ”编写 显 式 的 函数 参数 类 型 


























Python 语言 可 以 编写 对 各 种 数据 类 型 完全 通用 的 函数 或 类 ， 以 如 下 函数 为 例 : 


def temperature(*, f_temp=None, c_temp=None): 
if c temp is None: 
return {'f_temp': f_temp, 'c_ temp': 5*(f_temp-32)/9} 
elif f_ temp is None: 
return {'f_temp': 32+9*c_ temp/5, 'c_temp': c_temp} 
else: 
raise Exception("Logic Design Problem") 
































该 函数 遵循 了 前 面 介绍 的 三 个 实例 ， 分 别 见 3.3 节 、3.4 节 和 2.6 节 。 

该 函数 适用 于 任意 数字 类 型 的 参数 值 。 事实 上 , 该 函数 适用 于 任何 能 够 实现 +:、- 、* 和 /运算 符 的 
数据 结构 。 

有 了 时候， 我 们 不 希望 函数 是 完全 通用 的 。 在 某 些 情况 下 ， 我 们 希望 更 明确 地 指明 数据 类 型 。 虽然 









































有 时 候 我 们 关心 数据 类 型 ， 但 是 尽量 不 要 采用 下 面 的 方法 : 


from numbers import Number 

def c_ temp(f_temp): 
assert isinstance(F, Number) 
return 5*(f_temp-32)/9 






































这 个 函数 引入 了 一 个 额外 的 assert 语句 的 性 能 开销 ， 还 将 程序 与 一 个 通 
混在 了 一 起 。 
此 外 ， 文 档 字符 串 还 不 能 用 于 测试 ， 一 般 用 法 如 下 所 示 : 


def temperature(*, f_temp=None, c_temp=None): 
"" "Convert between Fahrenheit temperature and 
Celsius temperature. 














常 应 该 明 胡 














重申 的 语句 
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:key f_temp: Temperature in oF. 

:key C_temp : Temperature in °C. 

:returns: dictionary with two keys: 
:f_temp: Temperature in oF. 
:C_temp: Temperature in °C. 





文档 字符 串 不 允许 用 任何 自动 化 测试 来 确认 文档 是 否 与 代码 真正 匹配 。 代 码 和 文档 之 间 可 能 不 
匹配 。 

本 实例 的 目的 是 创建 可 用 于 测试 和 确认 的 数据 类 型 的 提示 , 但 前 提 是 这 些 提示 不 能 干扰 性 能 。 如 
何 提供 有 意义 的 类 型 提示 呢 ? 


3.5.1 准备 工作 


本 实例 将 实现 另 一 个 版 本 的 temperature () 函数 。 要 提供 关于 参数 和 返回 值 的 数据 类 型 的 提示 ， 
需要 两 个 模块 。 

from typing import * 

首先 选择 从 typing 模块 导入 所 有 名 称 。 我 们 希望 提供 简洁 的 类 型 提示 。typing.List[str] 这 
种 写法 太 笨拙 ， 最 好 省 略 模 块 名 称 。 

其 次 需要 安装 最 新 版 本 的 mypy。 该 项 目 正 处 于 高 速 发 展 中 。 相 对 于 使 用 pip 程序 从 PyPI 中 获得 
副本 ， 最 好 直接 从 GitHub 库 (https://github.com/JukkaL/mypy ) 中 下 载 最 新 版 本 。 

mypy 的 安装 说 明 指 出 , 目前 PyPI 上 的 mypy 版 本 与 Python 3.5 不 兼容 。 如 果 使 用 Python 3.5 环境 ， 
请 直接 从 git 安装 。 

$ pip3 install git+git://github.com/JukkaL/mypy.git 


mypy 工具 可 以 用 于 分 析 Python 程序 ， 从 而 确定 类 型 提示 是 否 与 实际 的 代码 相 匹 配 。 




















































































































3.5.2 ”实战 演练 
Python 3.5 引入 了 类 型 提示 。 类 型 提示 可 以 在 函数 参数 、 函 数 返 回 值 和 类 型 提示 注释 这 三 个 地 方 
使 用 。 
(1) 为 各 种 数字 定义 一 个 便捷 的 类 型 。 
from decimal import Decimal 


from typing import * 
Number = Union[int, float, complex, Decimall] 


理想 情况 下 ， 我 们 使 用 numbers 模块 中 的 抽象 Number 类 。 目 前 ， 该 模块 还 没有 一 个 可 用 的 类 
型 规范 ， 所 以 我 们 将 自 定义 Number 类 。 该 定义 是 多 种 数字 类 型 的 联合 体 。 理 想 情 况 下 ， 未 来 版 本 的 
mypy 或 者 Python 将 包含 必要 的 定义 。 

(2) 注释 函数 的 参数 值 。 


def temperature(*, 
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f_temp: Optional [Number]=None, 
c_temp: Optional [Number]=None): 


我 们 添加 了 :和 一 个 类 型 提示 作为 参数 的 一 部 分 。 本 示例 使 用 自 定义 的 Number 类 型 定义 来 规定 
允许 使 用 的 数字 类 型 。 使 用 optional[] 类 型 操作 包 庄 Number 类 型 定义 ， 来 规定 实际 参数 值 要 么 是 
Number 要 么 是 None。 

(3) 注释 函数 的 返回 值 。 

def temperature(*, 


f_temp: Optional [Number]=None, 
c_temp: Optional[Number]=None) -> Dict[lstr, Number]: 


我 们 为 函数 的 返回 值 添加 了 -> 和 一 个 类 型 提示 。 本 示例 规定 结果 是 一 个 字典 对 象 , 其 中 键 为 字符 
串 stz， 值 为 使 用 Number 类 型 定义 的 数字 。 

typing 模块 引入 了 像 Dict 这 样 的 类 型 提示 名 称 ， 我 们 可 以 使 用 类 型 提示 名 称 来 解释 函数 的 结 
果 。 该 名 称 不 同 于 实际 构建 对 象 的 dict 类 。typing.Dict 仅仅 是 一 个 提示 。 

(4) 如 果 有 必要 ， 可 以 在 赋值 语句 和 witn 语句 中 添加 类 型 提示 作为 注释 。 这 种 需求 极为 少见 , 但 
是 可 以 阐明 一 系列 元 长 、 复 杂 的 语句 。 添 加 类 型 提示 作为 注释 的 示例 如 下 。 


result = {'c temp': c_temp, 
'f_temp': f_temp} # type: Dict[lstr, Number] 


该 示例 为 构建 最 终结 果 字 典 对 象 的 语句 添加 了 注释 # type: Dict[str, Number]。 


3.5.3 ”工作 原理 


本 实例 添加 的 类 型 信息 叫 作 提示 (hint )，Python 编译 器 不 检查 提示 ， 运 行 时 也 不 检查 。 

类 型 提示 由 单独 的 mypy 程序 使 用 。 要 获取 更 多 相关 信息 ， 请 参见 http://mypy-lang.org。 

mypy 检查 包括 类 型 提示 在 内 的 Python 代码 .mypy 应 用 形式 推理 和 推断 技术 来 确定 各 种 类 型 提示 
是 否 对 Python 程序 能 够 处 理 的 任何 数据 有 效 。 

对 于 更 大 、 更 复杂 的 程序 ，mypy 的 输出 将 包括 警告 和 提示 ， 说 明代 码 本 身 或 者 修饰 代码 的 类 型 
提示 的 潜在 问题 。 

例如 ， 我 们 经 常 容易 犯 这 样 一 个 错误 : 假定 函数 返回 一 个 数字 ， 但 是 ，return 语句 与 期 望 并 不 
相符 。 

def temperature bad(*, 


f_temp: Optional [Number]=None, 
c_temp: Optional[Number]=None) -> Number: 
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if c_tempb is None: 

c temp = 5*(f_temp-32)/9 
elif ft temp is None: 

f_temp = 32+9*c_temp/5 
else: 

raise Exception( "Logic Design Problem" ) 
result = {'c temp': c_temp, 

'f_temp': f_temp} # type: Dict[lstr, Number] 
return result 





在 运行 mypy 时 将 看 到 以 下 错误 消息 : 


ch03_r04.py: note: In function "temperature_ bad": 
ch03_r04.py:37: error: Incompatible return value type: 


expected Union[builtins.int, builtins.float, builtins.complex, decimal.Decimal], 
dot builtinse diet [uiLltines str 


Union[builtins.int, builtins.float, builtins.complex, decimal.Decimall]] 

在 错误 消息 中 ,Number 类 型 名 称 被 扩展 为 Union[builtins.int, builtins.float, puiltins. 
complex，decimal .Decimal]。 更 重要 的 是 ， 错 误 消 息 显示 第 37 行 的 return 语句 与 函数 定义 不 
匹配 。 

由 于 这 个 错误 ， 我 们 需要 修复 return 语句 或 类 型 定义 ， 以 确保 预期 类 型 与 实际 类 型 相 匹配 。 说 
不 清楚 哪 种 方案 是 恰当 的 ， 人 
口 计算 并 返回 一 个 值 : 这 意味 着 根据 被 计算 的 值 可 能 需要 两 个 return 语句 。 在 这 种 情况 下 ， 
Ce 字典 对 象 。 

口 返回 字典 对 象 : 这 意味 着 需要 修正 aef 语句 来 获得 适当 的 返回 类 型 。 这 种 方法 可 能 会 影响 到 

其 他 期 望 temperature 返回 一 个 Number 实例 的 函数 。 

类 型 提示 作为 用 于 参数 和 返 回 值 的 附加 语法 对 运行 时 没有 实际 影响 。 当 源 代码 第 一 次 被 编译 为 字 
节 码 时 ， 只 有 一 个 很 小 的 开销 一 一 毕竟 它们 只 是 提示 。 


3.5.4 补充 知识 


通常 可 以 使 用 内 置 数据 类 型 创建 复杂 的 结构 。 例 如 ， 可 以 构建 一 个 字典 ,将 由 三 个 整数 组 成 的 元 
组 映射 到 字符 串 列 表 。 


全 (2 oe Ey 
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如 果 该 字典 对 象 是 一 个 函数 的 结果 ， 那 么 应 当 如 何 描述 ? 
我 们 将 创建 一 个 复杂 的 类 型 表达 式 ， 然 后 使 用 该 表达 式 总 结 数据 结构 的 每 一 层 。 


Dict[Tuple[rint，int，zint]，List[stz] 





























我 们 通过 归纳 得 到 了 一 个 字典 ,其 中 ruple[int，int，int] 类 型 作为 键 , 另 一 种 类 型 List [str] 
作为 值 。 该 示例 说 明了 组 合 多 个 内 置 类 型 来 构建 复杂 数据 结构 的 方法 。 

在 该 示例 中 ,我们 把 由 三 个 整数 组 成 的 元 组 作为 一 个 匿名 元 组 。 在 许多 情况 下 ， 它 不 仅仅 是 一 个 
通用 的 元 组 ， 实 际 上 可 能 是 一 个 被 建 模 为 元 组 的 RGB 颜色 。 也 许字 符 串 列表 实际 上 是 一 个 根据 空格 
被 分 割 为 单词 的 较 长 文档 的 一 行 。 

在 这 种 情况 下 ， 可 以 按照 上 述 示例 定义 以 下 结构 


CGTB = TupLleé[linty int; int] 
Line = List[str] 
Dict[lColor, Linel] 


创建 特定 于 应 用 程序 的 类 型 名 称 ， 可 以 清晰 地 说 明 使 用 内 置 集合 类 型 执行 的 处 理 过 程 。 
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3.5.5 延伸 阅读 
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3.6 ”基于 偏 函 数 选择 参数 顺序 
当 讨论 复杂 函数 时 ， 有 时 会 牵扯 到 使 用 函数 的 方式 。 例 如 ， 在 多 次 执行 某 函 数 时 ， 我 们 可 能 会 使 



































用 一 些 由 上 下 文 固定 的 参数 值 ， 其 他 参数 值 则 随处 理 的 细节 而 变化 。 








多 关于 类 型 提示 的 信息 ， 请 参阅 https:/www.python.org/dev/peps/pep-0484/。 
口 当前 的 mypy 项 目 ， 请 参阅 https://github.com/JukkaL/mypy。 
口 关于 如 何在 Python 3 中 使 用 mypy 的 文档 ， 请 参阅 http://www.mypy-lang.org。 











如 果 我 们 的 设计 反映 了 这 个 问题 ,那么 就 可 以 简化 程序 设计 。 我 们 希望 提供 一 种 方法 使 常见 
数 更 容易 使 用 ， 也 想 避 免 重复 作为 更 大 上 下 文 一 部 分 的 参数 。 


比 不 常见 参 


3.6.1 





准备 工作 








本 实例 的 背景 信息 是 某 种 版 本 的 半 正 矢 (haversine ) 公式 。 该 公式 使 





























表面 点 与 点 之 间 的 距离 。 





基本 计算 生成 了 两 点 之 间 的 圆心 角 c， 该 角 的 测量 单位 为 浙 度 。 通 过 将 
平均 半径 , 我们 将 角度 转换 为 距离 。 如 果 将 角度 c 乘 以 半径 3959 英里 , 那么 就 可 以 把 距离 的 单位 


a = sin? 和 到] + cos(lat )cos(lat, )sin” | 


c= 2arcsin(Va) 
































度 转 换 为 英里 。 
该 函数 的 具体 实现 如 下 所 示 ， 其 中 已 经 添加 了 类 型 提示 : 


from math import radians, sin, cos, sqgrt, asin 


MI= 
NM= 
KM= 


def 


>>> round (haversine(36.12, -86.67, 33.94, -118.40, R=6372.8),， 


3:9.5.9 
3440 
6372 





haversine(lat_1: float, lon 1: float, 


lat 


“2: Eloaty lon 2: floaty Rtloat}y =» float: 


""Distance between points. 


R is Earth's radius. 
R=MI computes in miles. Default is nautical miles. 


2887 :25995 

A_lat = radians (lat_2) - radians (lat_1) 
A_lon = radians (lon 2) - radians (lon_ 1) 
lat_1 = radians (lat_1) 





lon, 一 /om ] 
2 


参数 


用 点 的 经 纬度 坐标 计算 地 球 


该 角 乘 以 某 种 单位 的 地 球 














ES) 





角 





lat_2 = radians (lat_2) 


sin(A_lat/2)**2 + cos(lat_1)*cos(lat 2)*sin(A_lon/2)**2 
2*asin(sart (a)) 


a 
C 


Pe ph es 大生 


关于 doctest 示例 的 提示 如 下 。 
人 OP doctest 示例 在 使 用 地 球 半径 时 ， 用 了 一 个 在 其 他 地 方 不 使 用 的 额外 的 小 数 点 。 这 是 





为 了 匹配 网 上 的 其 他 示例 。 
地 球 不 是 球形 的 。 从 赤道 处 测 得 的 半径 为 6378.1370 千 米 。 从 两 极 测 得 的 半径 为 
6356.7523 千 米 。 我 们 通常 使 用 常见 的 近似 常量 。 
通常 情况 下 R 值 是 相同 的 。 如 果 我 们 在 海洋 环境 中 工作 ， 那 么 R = NM 表示 半径 单位 为 海里 
让 参数 值 一 致 的 常用 方法 有 两 种 。 
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3.6.2 ”实战 演练 


在 某 些 情况 下 ， 整 个 上 下 文 将 为 参数 创建 一 个 变量 。 这 个 值 很 少 改 变 。 有 几 种 常见 的 方法 可 以 为 
参数 提供 一 个 一 致 的 值 ， 这 些 方法 涉及 在 男 一 个 函数 中 包装 函数 。 常 见方 法 如 下 。 
口 在 新 函数 中 包装 函数 。 
口 创建 偏 函 数 。 这 种 方法 有 两 种 改进 。 

量 提供 关键 字 参 数 。 

提供 位 置 参数 。 

本 实例 将 逐个 讨论 这 些 方法 。 

1. 包装 函数 

我 们 可 以 通过 在 特定 于 上 下 文 的 包装 函数 中 包装 一 般 函 数 来 提供 上 下 文 值 。 

(1) 区 分 位 置 参数 和 关键 字 参 数 。 我 们 希望 上 下 文 特征 〈 即 几乎 不 变 的 参数 ) 作为 关键 字 参 数 ， 
而 频繁 改变 的 参数 应 当 作为 位 置 参数 。 我 们 可 以 遵循 3.4 节 的 实例 来 进行 处 理 ， 按 如 下 形式 修改 基 
半 正 矢 函 数 。 


def haversine(lat_1: float, lon 1: float, 
Lat. 2 float, 10n 2 £10at *, Re ELOat), at 


我 们 插入 * 把 参数 分 为 两 组 ， 第 一 组 参数 可 以 通过 位 置 或 关键 字 提 供 参 数值 ， 第 二 组 参数 ( 即 R) 
必须 以 关键 字形 式 提供 参数 值 。 

C) 编写 一 个 包装 函数 ， 该 函数 将 应 用 所 有 未 修改 的 位 置 参 数值 ， 还 将 提供 附加 关键 字 参 数 作为 
长 期 运行 上 下 文 的 一 部 分 。 


def nm haversine (*args): 
return haversine(*args, R=NM) 


我 们 在 函数 声明 中 构造 了 *args 结构 , 使 用 一 个 元 组 args 来 收集 所 有 位 置 参数 值 。 在 对 haversine () 
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函数 求 值 时 ， 使 用 *args 将 元 组 扩展 到 该 函数 的 所 有 位 置 参数 值 。 

2. 使 用 关键 字 参 数 创建 偏 函数 
裔 函数 是 一 种 已 经 提供 某 些 参 数值 的 函数 。 当 我 们 执行 偏 函数 时 ,将 混合 先前 提供 的 参数 和 附加 
参数 ， 其 中 一 种 方法 是 使 用 关键 字 参 数 ， 类 似 于 包装 函数 。 

(1) 可 以 遵循 3.4 节 的 实例 。 我 们 可 能 会 按 如 下 形式 修改 基础 半 正 矢 函 数 。 


def haversine(lat_1: float, lon 1: float, 
late2Zr float TIONnL Ze float;e ,Ri.tloat). = ffL10at: 


(2) 使 用 关键 字 参 数 创建 偏 函 数 。 


from functools import partial 
nm haversine = partial (haversine, R=NM) 


partial () 函数 根据 现 有 函数 和 一 组 具体 的 参数 值 构 建 了 一 个 新 的 函数 。nm_haversine() 函数 
在 构造 偏 函数 时 为 提供 了 一 个 特定 值 。 
可 以 像 使 用 任何 其 他 函数 一 样 使 用 该 偏 函 数 。 


>>> round (nm haversine(36.12, -86.67, 33.94, -118.40), 2) 
1558.53 


我 们 得 到 一 个 以 海里 为 单位 的 结果 。 有 了 这 种 方法 ,在 做 与 航海 相关 的 计算 时 ， 就 不 必 每 次 都 耐 
心地 检查 haversine () 函数 是 否 使 用 R=NM 作为 参数 值 。 

3. 使 用 位 置 参 数 创建 偏 函 数 

创建 偏 函 数 的 男 一 种 方法 是 使 用 位 置 参 数 。 

如 果 尝 试 使 用 带 位 置 参数 值 的 partial () 也 数 ， 那 么 就 需要 在 偏 函 数 定义 中 提供 最 左 侧 的 参数 
值 。 这 导致 我 们 将 聘 数 的 前 几 个 参数 看 作 被 偏 函 数 或 包装 函数 隐藏 的 候选 项 。 

(1) 我 们 可 能 会 按 如 下 形式 修改 基础 半 正 矢 函 数 。 


def haversine(R: float, lat_1: float, lon 1: float, 
Jat 2 floats Jonc2. Loat) -5 £16ats 


(2) 使 用 位 置 参 数 创 建 一 个 偏 函 数 。 


from functools import partial 
nm haversine = partial (haversine, NM) 


partial () 函数 根据 现 有 函数 和 一 组 具体 的 参数 值 构 建 了 一 个 新 的 函数 。nm_haversine() 函数 
在 构造 偏 函 数 时 为 第 一 个 参数 提供 了 一 个 特定 值 。 
可 以 像 使 用 任何 其 他 函数 一 样 使 用 该 偏 也 数 。 


>>> round (nm haversine(36.12, -86.67, 33.94, -118.40), 2) 
1558.53 


我 们 得 到 了 一 个 以 海里 为 单位 的 结果 ， 有 了 这 种 方法 ， 在 做 与 航海 相关 的 计算 时 ， 就 不 必 每 次 都 
耐心 地 检查 haversine () 函数 是 否 使 用 R=NM 作为 参数 值 。 
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3.6.3 工作 原理 


偏 函 数 本 质 上 等 同 于 包 半 函数。 虽然 只 节省 了 一 行 代码 , 但 是 还 有 一 个 更 重要 的 目的 。 我 们 可 以 
在 其 他 更 复杂 的 程序 中 自由 地 构建 偏 函数 ， 不 需要 再 使 用 一 个 aef 语句 。 

注意 ， 在 讨论 位 置 参数 的 顺序 时 ,创建 偏 函 数 需 考虑 以 下 问题 。 
口 当 使 用 *args 时 ， 它 一 定 在 参数 列表 的 最 后 ， 这 是 Python 语言 的 要 求 。 这 意味 着 前 面 的 参数 
可 以 明确 地 识别 出 来 ， 其 余 的 参数 则 成 为 匿名 参数 ， 可 以 一 起 传递 到 包装 函数 。 
口 在 创建 偏 函 数 时 ， 最 左边 的 位 置 参 数 最 容易 提供 一 个 参数 值 。 

以 上 两 点 考虑 导致 我 们 将 最 左边 的 参数 更 多 地 看 作 上 下 文 : 这 些 参数 预计 很 少 改变 。 最 右边 的 参 
数 提供 细节 ， 并 且 频 繁 地 变化 。 




















































































































3.6.4 补充 知识 
第 三 种 包装 函数 的 方法 是 创建 一 个 1ampaa 对 象 。 这 种 方法 同样 有 效 。 


nm haversine = lambda *args: haversine(*args, R=NM) 
注意 ，lambda 对 象 是 去 除 函 数 名 和 函数 体 的 函数 ， 它 简化 到 只 含 两 个 要 素 : 
口 参数 列表 ; 
口 一 个 作为 结果 的 表达 式 。 

lambda 不 能 有 任何 语句 。 如 果 需 要 语句 ， 那 么 就 要 使 用 aef 语句 创建 一 个 函数 定义 ， 这 个 函数 
定义 包括 函数 名 称 和 具有 多 个 语句 的 函数 体 。 




















3.6.5 ”延伸 阅读 


口 3.9 节 将 会 进一步 扩展 本 实例 的 设计 。 


3.7 使 用 RST 标记 编写 清晰 的 文档 字符 串 


怎样 才能 清晰 地 记录 函数 的 作用 ? 能 提供 示例 吗 ? 当然 可 以 ， 而 且 十 分 必要 。 在 2.4 节 和 2.5 节 
中 ， 我 们 介绍 了 一 些 基础 的 文档 技术 。 这 两 个 实例 为 模块 的 文档 字符 串 引 入 了 RST。 

本 节 将 扩展 这 些 技 术 ， 使 用 RST 编写 函数 的 文档 字符 串 。 当 使 用 像 Sphinx 这 样 的 工具 时 ， 函 数 
的 文档 字符 串 将 成 为 一 个 优雅 的 描述 函数 功能 的 文档 。 
3.7.1 准备 工作 

在 3.4 节 中 ， 我 们 介绍 了 一 个 拥有 大 量 参 数 的 函数 和 一 个 只 有 两 个 参数 的 函数 。 

本 实例 将 讨论 一 个 与 那些 函数 稍 有 不 同 的 Twc () 函数 : 

>>> def Twc(T, V): 


"nnWind Chill Temperature."™"™" 
if V< 4.8 or T > 10.0: 


















































raise ValueError("V must be over 4.8 kph, T must be below 10"C ") 


return 13.12 + 0.6215*T - 11.37*V**0.16 + 0.3965*T*V**0.16 


我 们 需要 更 完整 的 文档 来 注释 这 个 函数 。 





理想 情况 下 ， 我 们 已 经 安装 了 Sphinx 来 查看 劳动 成 果 。 详 见 http://www.sphinx-doc.org。 


3.7.2 ”实战 演练 


为 了 描述 一 个 函数 ， 通 常 需要 编写 以 下 内 容 。 

口 概要 ( synopsis ) 

口 描述 ( description ) 

口 参数 ( parameter ) 

口 返回 值 (returns ) 

口 异常 ( exception ) 

口 测试 用 例 (test case ) 

口 其 他 似乎 有 意义 的 内 容 

为 图 数 创建 漂亮 文档 的 秘诀 如 下 所 示 。 可 以 将 这 种 方法 应 用 于 函数 ， 甚 至 模块 。 





























(1) 编写 概要 : 不 需要 适当 的 主语 。 我 不 会 这 样 写 :“This function computes...”， 而 是 直接 以 














“Computes...” 开 头 。 没 有 理由 特别 强调 上 下 文 环境 。 
def Twc(T, V): 
"""Computes the wind chill temperature.""" 


(2) 详细 编写 描述 。 


def Twc(T, V): 
"""Computes the wind chill temperature 


























The wind-chill, :math:`.T_ {wc}., is based on 
air temperature, T, and wind speed, V. 
































本 例 在 描述 中 使 用 了 一 点 数学 公式 。:math: 说 明文 本 对 象 使 用 LaTeX 数学 公式 排版 样式 。 如 细 


安装 了 LaTeX， 那 么 Sphinx 将 会 使 用 它 为 数学 公式 准备 一 个 小 小 的 .png 文件 。 如 果 需 要 ， 
以 使 用 MathJax 或 者 JSMath 来 创建 JavaScript 数学 公式 ， 以 代替 创建 .png 文件 。 



































全 








‘i 





Sphinx 可 








(3) 描述 参数 : 对 于 位 置 参数 ， 通 常 使 用 :param name: description。Sphinx 可 以 形 




















变化 形式 ,但 是 这 种 用 法 是 最 常见 的 。 














容 很 多 种 


对 于 必须 为 关键 字 参 数 的 参数 ， 通 常 使 用 :key name: description。 用 key 代替 param, 说 








明 这 是 一 个 强制 关键 字 参 数 。 
def Twc(T: float, V: float) : 
"""Computes the wind chill temperature 





The wind-chill, :math: T_ {wc}., is based on 
air temperature, T, and wind speed, V. 
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:param T: Temperature in °C 
:param V: Wind Speed in kph 


添加 类 型 信息 的 方法 有 两 种 : 

口 使 用 Python 3 的 类 型 提示 ; 

口 使 用 RST :type name: 标记 。 

我 们 通常 不 会 同时 使 用 这 两 种 技术 。 类 型 提示 是 一 种 比 RST :type name: 标记 更 好 的 方法 。 
(4) 使 用 :returns :描述 返回 值 。 


def Twc(T: float, V: float) -> float: 
"""Computes the wind chill temperature 

















The wind-chill, :math: T {wc}., is based on 
air temperature, T, and windq speed, V. 


:param T: Temperature in °C 
:param V: Wind Speed in kph 
:returns: Wind-Chill] temperature in °C 


包含 返回 值 类 型 信息 的 方法 有 两 种 : 
口 使 用 Python 3 的 类 型 提示 ; 
口 使 用 RST : rtype: 标记 。 
我 们 通常 不 会 同时 使 用 这 两 种 技术 。 类 型 提示 已 经 取代 了 RST :type name: 标记 。 
(5) 识别 可 能 会 抛 出 的 重要 异常 。 使 用 :raises exception :推理 标记 。 标 记 的 变化 形式 可 能 
很 多 种 ，: raises exception :似乎 最 流行 。 


























~ 





ny 


def Twc(T: float, V: float) -> float: 
"""Computes the wind chill temperature 


The wind-chill, :math: T_ {wc}., is based on 
air temperature, T, and windq speed, V. 


:param T: Temperature in °C 

:param V: Wind Speed in kph 

:returns: Wind-Chill] temperature in °C 

:raises ValueError: for wind speeds under over 4.8 kph or T above 10°C 











(6) 如 果 可 能 的 话 ， 添 加 一 个 doctest 测试 用 例 。 


def. DWe (TS Eloat, Ve Fl1oat) =S ELOaC: 
"""Computes the wind chill temperature 





The wind-chill, :math: T {wc}., is based on 
air temperature, T, and wind speed, V. 


:param T: Temperature in °C 
:param V: Wind Speed in kph 
:returns: Wind-Chil1 temperature in °C 
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:raises ValueError: for windq speeds under over 4.8 kph or T above 10°C 


SS ,TouUnc (Twet=T0 "25) ;EL) 
-18.8 























(7) 编写 任意 附加 的 注释 和 有 用 的 信息 。 可 以 在 文档 字符 串 中 添加 以 下 信息 。 


See https://en.wikipedia.org/wiki/Wingd_chill 





math:: 


T_ {wc} (T a, V) = 13.12 + 0.6215 Ta - 11.37 V^{0.16} + 0.3965 Ta V^{0.16} 
我 们 添加 了 _ 个 ， Wikipedia 网 页 的 引用 ， 该 网 页 概述 了 风寒 计算 ， 并 含有 更 详细 信息 的 链接 。 
为 了 在 函数 中 使 用 LaTeX 公式 ， 我 们 还 添加 了 一 个 . .math: :指令 。 这 将 使 排版 非常 友好 ， 提 高 
了 代码 的 可 读 性 。 




















3.7.3 工作 原理 


更 多 关于 文档 字符 串 的 信息 ， 请 参阅 2.4 节 。 虽 然 Sphinx 很 流行 ， 但 它 并 不 是 唯一 能 够 从 文档 字 
符 串 注释 中 创建 文档 的 工具 。Python 标准 库 中 的 pydoc 工具 包 也 可 以 从 文档 字符 串 注释 中 生成 美观 
的 文档 。 

Sphinx 工具 依赖 于 docutils 包 中 RST 处 理 过 程 的 核心 特性 。 更 多 信息 请 参阅 https://pypi. 
python.org/pypi/docutils。 

RST 规则 相对 简单 ， 本 实例 中 大 多 数 的 附加 功能 都 利用 了 RST 的 解释 文本 角色 (interpreted text 
role )。 :paramT:、:returns: 和 :raises ValueError: 等 标记 都 是 一 个 独立 的 文本 角色 。RST 处 
理 器 可 以 使 用 这 些 信息 来 决定 样式 以 及 内 容 结构 。 样 式 通常 包括 独特 的 字体 。 上 下 文 可 能 是 一 个 
HTML 定义 列表 格式 。 

























































































3.7.4 补充 知识 


在 许多 情况 下 , 还 需要 添加 函数 与 类 之 间 的 交叉 引用 。 例 如 , 假设 我 们 有 一 个 生成 风寒 表 的 函数 ， 
该 函数 的 文档 又 包含 了 Twc () 函数 的 引用 。 
Sphinx 使 用 特殊 的 :func :文本 角色 来 生成 这 些 交 叉 引 用 : 


def wingd_chill table(): 
""Uses :func: ‘Twc. to produce a wind-chill 
table for temperatures from -30°C to 10°C and 
wind speeds from 5kph to 50kph. 




















我 们 在 RST 文档 中 使 用 :func:““Twc` 来 交叉 引用 男 一 个 不 同 的 函数 。Sphinx 将 把 它们 转化 为 适 
当 的 超 链 接 。 
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3.7.5 延伸 阅读 

口 关于 RST 工作 原理 的 其 他 实例 ， 请 参阅 2.4 节 和 2.5 节 。 
3.8 ”围绕 Python 栈 限制 设计 递归 水 数 
某 些 函数 使 用 递归 公式 定义 会 更 加 清晰 简洁 。 常 见 的 例子 有 两 个 。 


阶乘 函数 : 


























1 n=0 
nl= 
nx(n—l)! n>0 





斐 波 那 契 数 计算 规则 : 


1 n=0 n=1 
FrF = 
” [Fj+F, n>l 























这 两 个 例子 都 涉及 具有 简单 定义 值 的 情况 和 基于 相同 函数 的 其 他 值 来 计算 函数 值 的 情况 。 
关键 问题 在 于 , Python 对 这 些 类 型 的 递归 函数 定义 的 上 限 设 置 了 限制 。 虽然 Python 整数 可 以 轻松 
地 表示 1000!， 但 是 由 于 栈 限 制 ， 我 们 不 能 随意 地 实现 递归 。 
计算 斐 波 那 契 数 ,还 涉及 另外 一 个 问题 。 如 果 不 小 心 ， 就 会 多 次 计算 大 量 值 。 
Fs=F+F, 
Fs= (Fst+ Ph)+ (Ft+h) 























等 等 。 
为 了 计算 F;， 我 们 将 计算 两 次 斑 ， 计 算 三 次 到， 开销 非常 大 。 


3.8.1 准备 工作 


许多 递归 函数 定义 遵循 由 阶乘 函数 设 定 的 模式 。 这 种 模式 有 时 被 称 为 尾 递 归 〈tail recursion )， 因 
为 递归 情况 可 以 写 在 函数 体 的 尾部 。 


[is 
1 ee 

return 1 
return n*fact(n-1) 


函数 中 的 最 后 一 个 表达 式 引 用 具有 不 同 参 数值 的 函数 。 
E 申 一 下 ， 避 免 Python 中 的 递归 限制 。 

































































[hdll 
el 
TT 











3.8.2 ”实战 演练 


尾 递 归 也 可 以 描述 为 规约 (reduction )。 我 们 将 从 一 组 值 开 始 ， 然 后 将 它们 归 约 为 一 个 值 。 
(1) 展开 规则 ， 显 示 所 有 详细 信息 。 
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nl=nx(n—1)x(n—2)x(n—3)x:…x1 





(2) 统 





写 一 个 循环 ， 枚 举 所 有 值 。 














N= {n,n-1,n— 2,...,1} 
在 Python 中 ， 这 可 以 简写 为 range(1，n+1) 。 在 某 些 情况 下 ， 我 们 必须 对 基 值 应 用 一 些 转换 














N= {f@:1 <i<nt+l} 

















如 果 





有 














必须 执行 某 种 变换 ， 那 么 在 Python 中 


(£(i) for i in zange(1,n+1l)) 




















的 代码 如 下 所 示 : 








(3) 结合 规约 函数 。 在 本 实例 中 , 我们 正在 使 用 乘法 计算 一 个 很 大 的 乘积 。 可 以 使 用 [xx 标记 来 





进行 归纳 。 对 于 本 示例 ， 我 们 只 对 乘积 











P 计 算 的 值 强加 一 个 简单 的 边界 : 


| | 1<x<n+1 * 











Python 中 的 一 个 实现 如 下 所 示 : 


def 





prod (int_iter): 

DS. 

for. Tn 1nt Lter: 
p *= x 

return p 





可 以 用 高 阶 函数 来 重新 说 明 一 下 这 个 解决 方案 : 


def 


这 个 

















fact tn}: 
return prod(range(1, n+1)) 


函数 能 够 正常 工作 。 我 们 优化 了 第 一 个 解决 方案 , 把 prod() 函数 和 fact () 函数 组 合 为 一 个 
函数 。 事 实证 明 ， 这 种 优化 实际 上 并 没有 减少 多 少 运行 时 间 。 























使 用 timeit 模块 对 两 个 方案 进行 比较 的 结果 如 下 。 





性 能 


原始 方案 4.6901 
优化 后 4.7766 


提升 了 大 约 2%， 变 化 不 是 很 大 。 


注意 ，Python 3 的 range 对 象 是 情 性 的 ( lazy ) 一 一 它 并 不 创建 一 个 很 大 的 列表 对 象 ， 而 是 会 按 
照 prod() 函数 的 要 求 返 回 值 。 这 不 同 于 Python 2，Python 2 中 的 range () 函数 为 所 有 值 创 建 了 一 个 
很 大 的 列表 对 象 ， 而 xrange () 函数 是 惰性 的 。 











3.8.3 工作 原理 
尾 递归 定义 很 方便 ， 





口 使 月 














出 


























简单 易 记 。 数 学 家 喜欢 这 种 方式 ， 因 为 它 有 助 于 说 明 函 数 的 意义 。 

许多 静态 编译 语言 的 优化 方式 类 似 于 我 们 所 展示 的 技术 。 这 种 优化 包括 两 个 部 分 。 

昌 相 对 简单 的 代数 规则 来 重新 排序 语句 ， 以 便 递归 子 句 是 实际 上 的 最 后 一 个 语句 。if 语句 
可 以 重新 组 织 成 不 同 的 物理 顺序 ， 忆 和 




















保 return fact (n-1) * n 排 在 最 后 。 这 种 重新 排列 
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对 于 如 下 代码 是 必要 的 。 


def ugly_fact (n): 
rt 
return fact(n-1) * n 
lif nn sa. 0 
return 1 
else: 
raise Exception("Logic Error") 


口 向 虚拟 机 字 节 码 或 实际 机 器 码 中 注入 特殊 指令 ， 重 新 计算 函数 ， 而 不 创建 新 的 栈 帧 。Python 
没有 这 个 特性 。 实 际 上 ， 这 个 特殊 指令 将 递归 转换 为 一 种 while 语句 。 














人 

while n != 1: 
Ti 过， 从 二 
p*=n 





这 种 纯粹 的 机 械 转换 导致 代码 相当 难看 。 在 Python 中 ， 运 行 速度 也 可 能 非常 慢 。 在 其 他 语言 中 ， 
特殊 字 节 码 指令 可 以 加 快 代码 的 运行 速度 。 

我 们 不 喜欢 做 这 种 机 械 优化 ， 它 会 让 代码 看 起 来 很 乱 。 更 重要 的 是 , 在 Python 中 , 它 往往 会 创建 
比 上 面 开 发 的 代码 更 慢 的 代码 。 
3.8.4 补充 知识 


斐 波 那 契 问题 涉及 两 个 递归 。 如 果 我 们 简单 地 将 其 写 为 一 个 递归 ， 那 么 代码 可 能 如 下 所 示 : 























def fibol(n): 
TE 
return 1 
else: 


return fibo(n-1)+fibo(n-2) 
很 难 通过 简单 的 机 械 将 其 转换 为 尾 递 归 。 像 这 样 的 多 次 递归 问题 需要 更 仔细 的 设计 。 
有 两 种 降低 计算 复杂 度 的 方法 : 
口 使 用 备 忘 ; 
口 重 述 问题 。 

备 忘 (memoization ) 技术 很 容易 在 Python 中 应 用 。 可 以 使 用 functools.1ru_cache () 作为 装 
饰 器 ， 该 函数 会 缓存 先前 计算 的 值 。 这 意味 着 我 们 只 用 计算 一 次 值 ; 每 隔 一 段 时 间 ，1lru_cache 将 
返回 先前 计算 的 值 。 

代码 如 下 : 


from functools import lru_cache 














@lru_cache (128) 
def fibol(n): 
i 9 王 节 
return 1 
else: 
return fibo(n-1)+fibo(n-2) 
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添加 装饰 响 是 优化 更 复杂 的 多 路 递归 的 简单 方法 。 

重 述 问题 意味 着 从 新 的 角度 来 看 竺 问题。 在 本 例 中 , 可 以 考虑 计算 所 有 斐 波 那 契 数 , 直到 包括 F,。 
我 们 只 需要 该 序列 中 的 最 后 一 个 值 。 我 们 计算 了 所 有 的 中 间 值 ， 因 为 这 样 做 更 高 效 。 实 现 该 方法 的 生 
成 器 函数 如 下 所 示 : 


def fipo_ iter() : 
二 
B's 
yield a 
while True: 
yield b 
ds “Bc: BF a+b 




















iT 


该 函数 是 辈 波 那 契 数 的 无 限 迭 代 。 该 函数 使 用 了 Python 的 yield 语句 ,以 便 以 惰性 方式 4 
当 客户 端 函数 使 用 此 迭代 需 时 ， 序 列 中 的 下 一 个 数字 将 被 计算 ， 每 个 数字 都 将 被 使 用 。 
下 面 是 一 个 使 用 值 的 函数 ， 该 函数 对 无 限 迭 代 器 设置 了 上 限 : 


def fipbo(n) : 








成 值 。 





























for i, f_i in enumerate(fibo_ iter()) : 
if i == n: break 
return f_i 











该 函数 使 用 了 fibo_iter () 迭代 器 中 的 每 个 值 。 当 达到 所 需 的 数字 时 , break 语句 结束 for 语句 。 
当 回 顾 2.7 节 中 的 实例 时 ， 我们 注意 到 带 有 break 的 while 语句 有 和 多重 终止 条 件 。 在 本 实例 中 ， 
终止 for 语句 的 方法 只 有 一 种 。 
可 以 总 是 断言 当 i == n 时 循环 结束 ， 这 简化 了 函数 的 设计 。 
3.8.5 ”延伸 阅读 


请 参阅 2.7 节 。 


3.9 根据 脚本 / 库 转 换 规则 编写 可 重用 脚本 


创建 可 以 组 合成 更 大 脚本 的 小 脚本 是 很 常见 的 。 我 们 不 想 复制 和 粘贴 代码 ， 想 将 核心 代码 留 在 一 
个 文件 中 ， 并 在 多 个 地 方 使 用 。 我 们 通常 需要 组 合 来 自 多 个 文件 的 元 素来 创建 更 复杂 的 脚本 。 

亚 手 的 问题 在 于 ， 当 我 们 导入 一 个 脚本 时 ,实际 上 就 运行 了 这 个 脚本 。 这 通常 不 是 我 们 期 望 的 结 
果 。 当 导入 脚本 时 ， 我 们 更 希望 对 其 进行 重用 。 

如 何 从 文件 导入 函数 ( 或 类 )， 而 不 使 脚本 开始 执行 某 些 操作 呢 ? 


3.9.1 准备 工作 
假设 我 们 有 一 个 便捷 的 半 正 矢 距离 计算 函数 haversine () ， 它 包含 在 文件 ch03 r08.py 里 。 
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最 初 ， 文 件 ch03 r08.py 可 能 如 下 所 示 : 


import csy 

import pathlib 

from math import radians, sin, cos, sqrt, asin 
from functools import partial 


ME 3959 
NM= 3440 
KM= 6373 





def haversine( lat_1: float, lon 1: float, 
Iat 2 {flo0aty Lon.2: "flOaty SB» RR {float ) .= {float: 
. and more ... 


nm haversine = partial (haversine, R=NM) 


source path = pathlib.Path ("waypoints.csv") 
with source path.open() as source file: 
reader= csv.DictReader (source_ file) 
start = next (reader) 
for point in reader: 
d = nm haversinel 
tloat (estartil Lat ml }, FLloat.(startt Ll Lon.l).)s 
float(point['lat']), float (point['lon']) 
) 
BEINnt (etarty PELNES,»H) 
start= point 


因为 3.6 节 中 已 经 介绍 过 了 haversine() 函数 ， 所 以 我 们 省 略 了 havezrsine() 函数 的 函数 体 ， 
仅 显 示 为 . . .and more...。 我 们 关注 的 是 函数 在 Python 脚本 中 的 上 下 文 , 它 打开 了 文件 wapypoints.csv， 
并 对 该 文件 进行 了 一 些 处 理 。 

如 何 导 入 这 个 模块 ， 而 不 打印 wapypoints.csv 文件 中 路 径 点 之 间 的 距离 显示 呢 ? 





3.9.2 ”实战 演练 


Python 脚本 编写 起 来 很 简单 。 事实 上 ,创建 一 个 工作 脚本 往往 也 很 简单 。 将 简单 的 脚本 转换 为 可 
重用 库 的 方法 如 下 。 

(1) 识别 执行 脚本 处 理 的 语句 : 区 分 定义 definition ) 和 动作 (action )。 例 如 ，import 、def、 
class 等 语句 明显 属于 定义 性 语句 ， 它 们 支持 处 理 , 但 并 不 直接 执行 处 理 。 几 乎 其 他 所 有 语句 都 执行 
动作 。 

在 我 们 的 示例 中 ， 赋 值 语句 有 4 个 ， 应 该 算 定 义 语 名 而 非 执行 语句 。 这 种 区 分 只 是 一 个 目的 。 所 
有 的 语句 都 根据 定义 执行 动作 。 但 是 ， 这 些 动作 更 像 是 aef 语句 的 动作 ， 而 不 像 脚 本 后 面 的 with 语 
句 的 动作 。 

一 般 的 定义 性 语句 如 下 : 


MI= 3959 
NM= 3440 









































KM= 6373 


def haversine( lat_1: float, lon 1: float, 
at 2 ,flo Lon 2 float *y Re float ) ?3 FL1Odt:: 
. and more ... 


nm haversine = partial (haversine, R=NM) 


其 他 的 语句 明确 地 执行 动作 来 生成 输出 结果 
(2) 将 动作 包含 在 一 个 函数 中 。 


def analyze(): 
source path = pathlib.Path ("waypoints.csv") 
with source path.open() as source_ file: 
reader= csv.DictReader (source_ file) 
start = next (reader) 
for point in reader: 
d = nm haversinel( 
float(start['lat']), float(start['lon']), 
float (point['lat']), float (point['lon']) 
) 
Orlint (Start, Dot.d) 
start= point 


(3) 在 可 能 的 情况 下 ,提取 字面 量 并 把 它们 转化 为 参数 。 通常 把 字面 量 简 单 地 转换 为 参数 的 默认 值 。 
转换 前 的 函数 : 


def analyze(): 
source path = pathlib.Path ("waypoints.csv") 


转换 后 的 函数 : 


def analyze(source name="waypoints.csv"): 
source_path = pathlib.Path(source_name) 


以 上 转换 使 得 脚本 可 以 重用 ， 因 为 源 文件 的 路 径 现在 是 一 个 参数 而 不 是 一 个 假设 值 。 
(4) 在 脚本 文件 中 包含 以 下 内 容 作为 唯一 的 高 级 操作 语句 。 


= "main 








〇 




















生生 name = 
analyze() 


我 们 把 脚本 执行 的 动作 打包 成 了 一 个 函数 。 顶 层 操 作 脚 本 现在 包装 在 一 个 if 语句 中 ， 这 样 在 导 
入 期 间 脚本 就 不 会 执行 。 








3.9.3 工作 原理 


Python 最 重要 的 规则 是 : 导入 一 个 模块 等 同 于 将 模块 作为 一 个 脚本 运行 。 文 件 中 的 语句 按照 从 上 


到 下 的 顺序 执行 。 
当 我 们 导入 文件 时 ， 通 常 对 执行 sef 和 class 语句 感 兴趣 ， 也 可 能 对 某 些 赋值 语句 感 兴 


当 Python 运行 脚本 时 ， 它 会 设置 一 些 内 置 的 特殊 变量 。 name。 是 其 中 的 一 个 变量 ,该 变量 具 
有 两 个 不 同 的 值 ， 具 体 值 取决 于 执行 文件 的 上 下 文 。 
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口 顶层 脚本 ， 从 命令 行 执行 。 在 这 种 情况 下 ,内 置 特 殊 名 称 _name_ “的 值 被 设置 为 ”main _。 
口 由 于 import 语句 而 执行 的 文件 。 在 这 种 情况 下 ，_ name “的 值 为 正在 创建 的 模块 的 名 称 。 
main 的 标准 名 称 乍 听 起 来 有 点 古怪 。 为 什么 不 在 所 有 情况 下 使 用 文件 名 呢 ? 指定 这 个 特殊 
名 称 是 因为 Python 脚本 可 以 从 多 个 来 源 中 读 取 。 它 既 可 以 从 文件 中 读 取 ， 也 可 以 从 stain 管道 中 读 
取 ， 甚 至 还 可 以 在 Python 命令 行 中 使 用 -c 选项 提供 。 
然而 ， 当 一 个 文件 被 导入 时 ，_ name “的 值 被 设 为 模块 的 名 称 ， 而 不 是 _main__。 在 这 个 示例 
中 ， 在 导 和 过程 中 _name 的 值 将 是 ch03_r08。 



































3.9.4 补充 知识 


我 们 现在 可 以 使 用 可 重用 的 库 构建 有 用 的 工作 。 可 以 编写 以 下 文件 : 
trip_1.py 文件 


from ch03_r08 import analyze 
analyze('trip_1.csyv') 


其 至 更 复杂 一 些 的 文件 : 
all_trips.py 文件 


from ch03_r08 import analyze 
eh a oh oR to HL eh a oN ea oh A era 
analyze (trip) 


我 们 的 目标 是 将 实用 解决 方案 分 解 为 两 个 功能 集合 : 
口 类 和 函数 的 定义 ; 
口 一 个 非常 小 的 面向 操作 的 脚本 ， 它 使 用 定义 来 做 有 用 的 工作 。 
为 了 达到 这 个 目的 , 我 们 经 常会 从 一 个 将 这 两 个 功能 集合 合并 在 一 起 的 脚本 开始 。 这 种 脚本 可 以 
被 看 作 是 一 个 试探 性 解决 方案 ( spike solution )。 我 们 的 试探 性 解决 方案 应 该 在 我 们 确定 它 有 效 时 ， 向 
更 精细 的 解决 方案 发 展 。 

岩 钉 (spike 或 piton ) 是 一 种 可 移动 的 登山 装备 ， 它 并 不 能 使 我 们 疏 得 更 高 ， 但 可 以 让 我 们 安全 
地 欧 爬 。 



























































3.9.5 延伸 阅读 


口 第 6 章 将 介绍 另 一 种 广泛 使 用 的 定义 性 语句 








类 的 定义 。 








内 置 数据 结构 一 一 列表 、 集 、 
字典 








本 章 主 要 介绍 以 下 实例 。 

口 选择 数据 结构 

口 构建 列表 一 一 字面 量 、appena () 和 解析 式 
口 切片 和 分 割 列表 
口 从 列表 中 删除 元 素 
口 反 转 列表 的 副本 
口 使 用 set 方法 和 运算 符 

口 从 集中 移 除 元 素 一 一 remove () 、pop () 和 差 集 
口 创建 字典 一 一 插入 和 更 新 
口 从 字典 中 移 除 元 素 一 一 pop () 方 法 和 del 语句 
口 控制 字典 键 的 顺序 

口 处 理 doctest 示例 中 的 字典 和 集 

口 理解 变量 、 引 用 和 赋值 

制作 对 象 的 浅 天 本 和 深 副 本 

口 避免 可 变 默 认 值 作为 函数 参数 











del 语句 、remove() 、pop() 和 filter() 










































































4.1 引言 


Python 拥有 丰富 的 内 置 数据 结构 。 很 多 有 用 的 应 用 程序 都 是 由 这 些 内 置 结 构 构 建 的 。 这 些 集合 
( collection ) 覆盖 了 各 种 常见 情况 。 
本 章 将 概述 各 种 可 用 的 数据 结构 以 及 它们 解决 的 问题 , 同时 将 详细 介绍 列表 ( 1ist 
和 和 集 ( set )。 
请 注意 ,我 们 设 定 内 置 的 元 组 (tuple ) 结构 和 字符 串 ( string ) 结构 不 同 于 列表 结构 。 它 们 之 间 有 
一 些 重要 的 相似 之 处 , 但 是 也 有 一 些 差 异 。 在 第 1 章 中 ,我 们 强调 了 字符 串 和 元 组 的 行为 方式 更 像 不 
可 变 的 数字 ， 而 不 是 可 变 的 集合 。 




















Var 


、 字 + 典 ( dic ) 
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本 章 还 将 介绍 一 些 与 Python 处 理 对 象 引用 的 方法 相关 的 高 级 主题 ,也 将 讨论 一 些 与 这 些 数据 结构 
的 可 变性 相关 的 问题 。 


4.2 选择 数据 结构 


Python 提供 了 许多 内 置 数据 结构 来 帮助 我 们 处 理 数据 集合 。 我 们 可 能 很 难 确 定 哪 种 数据 结构 适合 
于 某 种 场景 。 
如 何 选择 使 用 哪 种 结构 ? 列表、 


4.2.1 准备 工作 


在 将 数据 放 和 集合 之 前 ， 需 要 考虑 如 何 收集 数据 ， 以 及 收集 数据 后 如 何 处 理 ， 其 中 最 大 的 问题 是 
如 何在 集合 中 识别 特定 的 元 素 。 
本 实例 将 讨论 几 个 必须 回答 的 关键 问题 。 









































滁 


合 和 字典 的 功能 是 什么 ”为 什么 会 出 现 元 组 和 冻结 集合 ? 














4.2.2 ”实战 演练 


(1) 成 员 测 试 是 程序 设计 的 重点 吗 ? 有 效 输入 值 的 集合 就 是 一 个 示例 。 当 用 户 输入 集合 中 的 内 容 
时 ， 其 输入 有 效 ， 否 则 无 效 。 

简单 的 成 员 测试 建议 使 用 集 ( set )。 

valiqd inputs = {"yes", "y", "no"， "n"} 

answer = None 


while answer not in valiqd inputs: 
answer = input ("Continue? [y, n] ").lower() 


集 在 没有 特定 顺序 的 状态 下 保持 元 素 不 变 。 如 果 元 素 是 集 的 成 员 , 那么 就 不 能 再 向 该 集中 添加 该 
元 素 [ey 


>>> Valid_ inputs = {"yes", "y", "no", "n"} 

>>> valid inputs.add("y") 

>>> Valid_inputs 

{'no', 'y', 'n', 'yes'} 

我 们 创建 了 一 个 具有 4 个 不 同 字符 串 元 素 的 集 一 一 valid_inputs。 我 们 不 能 再 向 已 经 含有 y 的 
集中 添加 另外 一 个 y。 集 的 内 容 不 可 更 改 。 

请 注意 ， 集 中 元 素 的 顺序 并 不 完全 是 我 们 初始 提供 的 顺序 。 集 不 能 对 元 素 保 持 任何 特定 的 顺序 ， 
它 只 能 确定 集中 是 否 存在 某 个 元 素 。 

(2) 是 否 可 以 根据 元 素 在 集合 中 的 位 置 来 标识 它们 ? 输入 文件 中 的 行 就 是 一 个 相关 示例 ， 行 号 就 
是 行 在 集合 中 的 位 置 。 

当 必须 使 用 索引 或 者 位 置 来 识别 元 素 时 ， 必 须 使 用 列表 ( list )。 


>>> month name list = ["Jan", "Feb", "Mar", "Apr", 
"May mn LL Jun" 区 Ln Jul mn "Aug" 全 
"Sep", "Oct", NOwn "Dec ] 
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列表 、 


不 、 字典 





>>> month name list[8] 
"Sep" 


>>> month name list.index("Feb" 


1 





我 们 创建 了 一 个 具有 12 个 字符 串 元 素 的 列表 
择 一 个 元 素 ， 还 可 以 使 用 index () 方 法 来 查找 元 素 在 列表 中 的 索引 。 
Python 中 列表 的 位 置 始 终 从 0 开始， 对 于 元 组 和 字符 























) 











month_name_l1ist。 可 以 通过 提供 

















其 位 置 来 选 





也 是 如 此 。 











如 果 和 集合 中 的 元 素数 量 是 固定 的 , 例如 , RGB 颜色 有 三 个 值 , 那么 就 可 能 需要 使 用 元 组 而 不 是 列 
表 。 如 果 元 素 的 数量 会 增长 和 变化 ， 那 么 列表 是 比 元 组 更 好 的 选择 。 


























(3) 是 否 可 以 用 元 素 的 键 而 不 是 位 置 来 标识 集合 中 的 元 素 ” 示 例 可 能 包括 字符 字符 串 〈 即 单词 ) 











与 表示 这 些 单词 频率 的 整数 之 间 的 映射 
当 必须 使 用 非 位 置 键 来 识别 元 素 时 ， 
过 扩展 添加 更 多 的 特性 。 
>>> Scheme = {"Crimson": (220, 
。 "DarkCyan": (0, 139, 139), 
. "Yellow": (255, 255, 00)} 
>>> scheme['Crimson'] 
(220, 14, 60) 











我 们 在 字典 Scheme 
"GELMeGnY ， 可 以 检索 绑 定 到 该 键 的 值 。 
(4) 仔细 考虑 集中 的 元 素 以 及 字典 
































14， 








， 也 可 能 是 颜色 名 称 和 该 颜色 的 RGB 元 组 
建议 使 用 某 种 映射 。 内 置 的 映射 就 是 字典 ( gict )。 可 以 通 


60)， 


! 添 加 了 从 颜色 名 称 到 RGB 颜色 元 组 的 映射 。 当 使 





中 





字符 串 和 元 组 都 是 不 可 变 的 ， 它 们 可 以 被 收集 到 














' 键 的 可 变性 。 
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人 

















Ro 


之 间 的 映射 。 




















用 一 个 键 时 ， 例 如 














! 的 每 个 元 素 必 须 是 不 可 变 的 对 象 。 数 字 、 
集中 。 由 于 列表 、 字 典 或 集 是 可 变 的 ， 因 此 它们 不 能 
被 用 作 集 的 元 素 。 例 如 ， 不 可 能 构建 一 个 以 列表 为 元 素 的 








我 们 可 以 将 每 个 列表 转换 为 元 组 ， 而 不 是 创建 一 个 以 列表 为 元 素 的 集 。 我 们 可 以 创建 以 不 可 变 的 





[ul 


元 组 为 元 素 的 集 。 








类 似 地 ， 字 典 的 键 也 必须 是 不 可 变 的 。 可 以 使 























列表 、 集 或 者 其 他 可 变 的 映射 作为 字典 的 键 。 





4.2.3 工作 原理 


Python 的 每 种 内 置 集合 都 提供 了 
集合 独特 的 功能 ， 











乡 








实际 上 ，collections .abc 模块 通过 内 置 集合 提供 














数字、 














符 串 或 元 组 作为 字典 的 键 , 不 可 以 使 用 

















独特 的 功能 。 这 些 集合 还 提供 了 大 量 重合 的 功能 。 识别 每 个 








对 于 Python 新 手 来 说 是 一 个 挑战 。 











了 一 种 指南 。collections .abc 模块 定义 

















了 支持 具体 类 的 抽象 基 类 ( abstract base class，ABC )。 我 们 将 通过 这 组 定义 中 的 名 称 来 了 解 这 些 结构 


的 功能 。 
根据 抽象 基 类 可 以 将 集合 分 为 6 类 。 




















口 集 : 独特 的 功能 是 元 素 成 员 测 试 。 这 意味 着 集 不 能 保存 重复 的 元 素 。 


图 可 变 集 : set 集合 。 
图 不 可 变 集 : frozenset 集合 。 
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口 序列 : 独特 的 功能 是 为 元 素 提供 索引 位 置 。 

量 可 变 序列 : 1ist 集合 。 

加 不 可 变 序列 : tuple 集合 。 
口 映射 : 独特 的 功能 是 每 个 元 素 都 有 一 个 指向 一 个 值 的 键 。 

图 可 变 映射 : di ct 集合 。 

加 不 可 变 映 射 : 有 趣 的 是 没有 内 置 的 冻结 映射 。 
Python 的 库 提供 了 这 些 核心 集合 类 型 的 大 量 附加 实现 ， 具 体 可 以 参考 “Python 标准 库 ”。 
collections 模块 包含 内 置 集合 的 许多 变 体 。 
口 namedtuple: 元 组 。 可 以 为 元 组 中 的 每 个 元 素 提供 名 称 。 使 用 *gb_color .red 要 比 rgb_ 
color [0] 稍微 清 晰 一 些 。 
口 deque: 双 端 队列 。 这 是 一 种 可 变 序列 ,增加 了 从 每 一 端 推 入 和 弹出 的 优化 。 列 表 可 以 实现 相 
似 的 功能 ， 但 是 deque 的 效率 更 高 。 
口 aefaultdict: 字典 。 可 以 为 缺失 键 提供 默认 值 。 
口 counter: 字典 。 用 于 计算 键 的 出 现 次 数 。 有 时 也 叫 作 多 重 集 ( multiset ) 或 包 (bag )。 
口 orgeredDict: 字典 。 保 留 键 创 建 时 的 顺序 。 
口 chainMap: 字典 。 将 多 个 字典 组 合 为 单个 映射 。 

“Python 标准 库 ” 中 还 有 更 多 类 似 的 结构 。 我们 也 可 以 使 用 heapg 模块 定义 优先 级 队列 。bisect 

模块 包含 非常 快速 地 搜索 排序 列表 的 方法 ， 可 以 使 列表 具有 更 接近 字典 快速 查找 的 性 能 。 





























































































































4.2.4 补充 知识 


可 以 通过 https:/en.wikipedia.org/wiki/List of data structures 来 了 解数 据 结构 。 

在 这 个 巨大 的 数据 结构 索引 中 ， 有 一 些 重要 的 总 结 。 文 章 的 不 同 部 分 提供 了 略 有 不 同 的 数据 结构 
的 总 结 。 数 据 结构 可 以 简要 地 划分 为 4 类 。 
口 数组 (array): 不 同 的 实现 提供 类 似 的 功能 。Python 的 列表 结构 是 典型 的 数组 ， 并 提供 与 数组 
的 链表 实现 类 似 的 性 能 。 
口 树 (tree): 通常 ， 树 结构 可 用 于 创建 集 、 顺 序列 表 或 键 值 映 射 。 可 以 将 树 视 为 一 种 实现 技术 ， 
而 不 是 具有 独特 功能 集 的 数据 结构 。 
口 散 列 〈hash) : Python 使 用 散 列 来 实现 字典 和 集 ， 虽 然 速 度 快 ， 但 内 存 消耗 较 大 。 
口 图 (graph): Python 没有 内 置 的 图 数据 结构 。 但 是 ， 可 以 轻松 地 用 字典 表示 图 结构 ， 其 中 每 

个 节点 都 有 相 邻 节点 的 列表 。 

在 Python 中 几乎 可 以 实现 任何 类 型 的 数据 结构 , 要 么 内 置 结构 具有 相应 的 本 质 特 征 , 要 么 可 以 找 

到 一 个 勉强 能 够 使 用 的 内 置 结构 。 

























































































4.2.5 延伸 阅读 


口 关于 高 级 图 结构 操作 的 更 多 信息 ， 请 参阅 https:/networkx.github.io。 
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列表 、 集 、 字 典 


append () 和 解析 式 


列表 是 一 种 使 用 元 素 位 置 的 集合 ,构建 列表 结构 的 方法 有 很 多 。 本 实例 将 介绍 多 种 由 单独 的 元 素 
构建 列表 对 象 的 方法 。 

在 某 些 情况 下 ， 需 要 使 用 列表 ， 因 为 列表 人 允许 重复 的 值 。 许 多 统计 操作 不 需要 知道 元 素 的 位 置 。 
对 于 这 种 需求 ， 多 重 集 非 常 适合 ， 但 是 多 重 集 不 是 一 种 内 置 的 结构 ， 通 常 使 用 列表 代替 多 重 集 。 


4.3.1 准备 工作 
假设 需要 对 某 些 文件 的 大 小 进行 统计 分 析 ， 提 供 文件 大 小 的 简短 脚本 如 下 所 示 : 


>>> import pathlib 
>>> home = pathlib.Path('source') 
>>> for path in home.glob('*/index.rst'): 
Print(Path.stat() .st_size，Path.parent) 
2353 Source/ch_01_numbers_strings_and_tuples 
2889 source/ch 02_ statements and syntax 
2195 source/ch 03_functions 
3094 source/ch 04 built in data structures _ list tuple set dict 
725 source/ch 05 user inputs and outputs 
1099 source/ch 06 basics of classes and objects 
690 source/ch 07 more advanced class design 
1207 source/ch 08_ functional programming features 
926 source/ch 09 input output physical format logical layout 
758 source/ch 10_ statistical programming and linear regression 
615 source/ch 11 testing 
521 source/ch 12 web services 
1320 source/ch 13 application integration 


以 上 示例 使 用 了 pathlib.Path 对 象 来 表示 文件 系统 中 的 目录 。glop () 方 法 扩展 了 匹配 给 定 模 
式 的 所 有 名 称 ， 在 本 示例 中 ,模式 为 '*/index.zrst'。 可 以 使 用 for 语句 显示 文件 的 stat 数据 中 
的 文件 大 小 。 
我 们 想 累 计 一 个 包含 各 个 文件 大 小 的 列表 对 象 。 通过 这 个 列表 对 象 ， 可 以 计算 文件 的 总 大 小 和 平 
均 大 小 ， 也 可 以 查找 看 起 来 太 大 或 太 小 的 文件 。 















































































































































创建 列表 对 象 的 方法 有 4 种 。 
口 使 用 由 [] 字 符 包 围 起 来 的 值 序列 创 建 列表 的 字面 量 显 示 , 例如 [value，. .. ]。Python 需要 
匹配 [和 ] 来 识别 一 个 完整 的 逻辑 行 ， 因此， 列表 的 字面 量 表示 可 以 跨越 物理 行 。 更 多 相关 信 





息 ， 请 参阅 2.3 节 。 


[2353, 2889, 2195, 3094, 725, 
1099, 690, 1207, 926, 758, 
615, 521, 1320] 


口 使 用 1ist () 函数 将 其 他 数据 集合 转换 为 列表 。 可 以 转换 集 、 字 典 的 键 或 字典 的 值 。4.4 节 将 
介绍 更 0 

口 A et 这 些 方法 包括 append() 、extend() 和 
insert ()。4.3.2 节 的 “使 用 append () 方 法 构建 列表 ”部 分 将 讨论 append() 方 法 ，4.3.4 节 
将 讨论 ee 
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口 使 用 生成 器 表达 式 构建 列表 对 象 。 列 表 解 析 式 就 是 一 种 生成 器 表达 式 。 
4.3.2 ”实战 演练 


1. 使 用 append( ) 方法 构建 列表 
(1) 创建 一 个 空 列表 [] 。 


>>> file sizes = [] 


(2) 迭代 某 些 源 数据 。 使 用 append () 方 法 将 元 素 妃 加 到 列表 中 。 
>>> home = pathlib.Path('source') 
>>> for path in home.glob('*/index.rst'): 
file sizes.append(path.stat().st size) 
>>> print (file sizes) 
[2353, 2889, 2195, 3094, 725, 1099, 690, 
1207, 926, 758, 615, 521, 1320] 
>>> print (sum(file sizes)) 
18392 


我 们 使 用 路 径 的 glob ( ) 方 法 来 查找 匹配 给 定 模式 的 所 有 文件 路径 的 stat () 方 法 提供 了 操作 系 
统 的 stat 数据 结构 ， 其 中 包含 以 字 节 为 单位 的 文件 大 小 st_size。 

在 打印 列表 时 ，Python 显示 其 字面 量 符号 。 如 果 需 要 将 列表 复制 粘贴 到 另 一 个 脚本 中 ， 这 种 方法 
非常 方便 。 

请 注意 ，appena () 方 法 不 返回 值 。append ( ) 方 法 更 改 了 列表 对 象 ， 并 且 不 返回 任何 内 容 。 



























































通常 ,改变 对 象 的 方法 都 没有 返回 值 . 像 append() .extend() 、sort () .reverse() 
等 方法 都 没有 返回 值 。 这 些 方法 调整 了 列表 对 象 自身 的 结构 。 
append () 方法 不 返回 值 ， 它 改变 了 列表 对 象 。 
以 下 错误 代码 是 很 常见 的 : 
个 a ['some', 'data'] 


a a.append('more data') 


这 是 非常 明显 的 错误 ，a 将 被 设置 为 None。 
正确 的 方法 是 使 用 如 下 语句 ， 没 有 任何 额外 的 赋值 : 
a.append('more data') 
2. 编写 列表 解析 式 
列表 解析 式 的 目的 是 创建 一 个 对 象 ， 该 对 象 具 有 类 似 列表 字面 量 的 语法 角色 。 
(1) 编写 围绕 列表 对 象 的 包装 括号 [] 。 
(2) 编写 数据 源 。 这 将 包括 目标 变量 。 请 注意 ， 语 句 尾 部 没有 : ， 因 为 我 们 并 不 是 在 编写 一 个 完整 
的 语句 。 
for path in home.glob('*/index.rst') 
(3) 在 步骤 (2) 的 语句 前 面 增加 计算 目标 变量 的 每 个 值 的 表达 式 。 同 样 ， 由 于 这 是 一 个 简单 的 表达 
式 ， 因 此 我 们 不 能 在 这 里 使 用 复杂 语句 。 
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path.stat().st_size 
for path in home.glob('*/index.rst') 


在 某 些 情况 下 ， 我 们 需要 添加 一 个 过 滤器 ， 即 for 语句 之 后 的 一 个 if£ 语句 ， 这 样 生 成 器 表达 式 
将 变 得 相当 复杂 。 
整个 列表 对 象 如 下 所 示 : 


>>> [path.stat() .st_size 
sh for path in home.glob('*/index.rst')] 
[2353, 2889, 2195, 3094, 725, 1099, 690, 1207, 926, 758, 615, 521, 1320] 


现在 我 们 创建 了 一 个 列表 对 象 ， 可 以 将 其 赋值 给 一 个 变量 ， 并 对 数据 进行 其 他 计算 和 汇总 。 

列表 解析 式 包括 一 个 生成 器 表达 式 ， 它 在 语言 手册 中 被 称 为 解析 式 ( comprehension )。 生 成 器 表 
达 式 是 附加 到 for 子 句 的 数据 表达 式 。 由 于 生成 器 是 一 个 表达 式 而 不 是 一 个 完整 的 语句 ， 因 此 在 功 
能 上 会 有 一 些 限 制 。 数 据 表 达 式 可 以 被 重复 计算 ， 并 由 for 子 句 控制 。 

3. 在 生成 器 表达 式 上 使 用 1ist 函数 

本 实例 将 创建 一 个 使 用 生成 器 表达 式 的 1ist 函数 。 

(1) 编写 围绕 生成 器 表达 式 的 1ist () 包 装 函数。 

(2) 重用 列表 解析 式 版 本 中 的 步 又 (2) 和 步 又 (3) 来 创建 生成 器 表达 式 。 生 成 器 表达 式 如 下 所 示 : 


path.stat().st_size 
for path in home.glob('*/index.rst') 


整个 列表 对 象 如 下 所 示 : 


>>> list(path.stat().st_ size 
Se for path in home.glob('*/index.rst')) 
[2353, 2889, 2195, 3094, 725, 1099, 690, 1207, 926, 758, 615, 521, 1320] 
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4.3.3 工作 原理 


Python 的 列表 对 象 具 有 动态 大 小 。 当 追加 或 搬入 列表 元 素 ， 或 者 使 用 另 一 个 列表 扩展 列表 时 ,会 
调整 数组 的 边界 。 类 似 地 ， 当 弹出 或 删除 列表 元 素 时 ， 会 收缩 数组 的 边界 。 我 们 可 以 快速 访问 任意 列 
表 元 素 ， 访 问 速度 不 依赖 于 列表 的 大 小 。 
在 极 少 数 情况 下 ,我 们 可 能 希望 创建 给 定 初始 大 小 的 列表 ,然后 单独 设置 列表 元 素 的 值 。 可 以 用 
列表 解析 式 来 实现 ， 示 例如 下 所 示 : 

some_list = [None for i in range(100)] 

上 述 表达 式 创 建 了 一 个 包含 100 个 元 素 的 列表 ， 其 中 每 个 元 素 都 是 None。 但 是 通常 没有 必要 这 
么 做 ， 因 为 列表 可 以 根据 需要 调整 大 小 。 

列表 解析 式 语 法 和 1ist () 函数 都 将 使 用 生成 器 中 的 列表 元 素 ， 并 通过 追加 这 些 元 素来 创建 新 的 
列表 对 象 。 


4.3.4 补充 知识 


本 实例 创建 列表 对 象 的 目标 是 能 够 对 它们 进行 汇总 。 很 多 Python 函数 都 可 以 实现 对 列表 的 汇总 ， 
示例 如 下 : 
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>>> sizes = list(path.stat().st size 
a for path in home.glob('*/index.rst')) 
>>> sum(sizes) 

18392 

>>> max (sizes) 

3094 

>>> min(sizes) 

521 

>>> from statistics import mean 

>>> round(mean(sizes), 3) 

1414.769 


我 们 使 用 了 内 置 的 sum()、min() 以 及 max() 来 产生 这 些 文档 大 小 的 一 些 描述 性 统计 。 哪 个 索引 
文件 最 小 ? 我 们 想 知道 值 列表 中 最 小 值 的 位 置 。 可 以 使 用 index() 方 法 来 实现 : 


>>> sizes.index(min(sizes)) 
11 


我 们 找到 了 最 小 值 , 然后 使 用 ingdex () 方 法 查找 了 该 最 小 值 的 位 置 。 回想 一 下 , 索引 值 从 0 开始 ， 
所 以 最 小 的 文件 是 第 12 个 元 素 。 

扩展 列表 的 其 他 方法 

我 们 可 以 扩展 列表 ， 也 可 以 在 列表 的 中 间或 开头 插 和 元素。 扩展 列 表 的 方法 有 两 种 : 使 用 + 运算 
符 或 者 extend () 方 法 。 创 建 两 个 列表 并 使 用 + 将 它们 合并 在 一 起 的 示例 如 下 : 


>>> chl = list(path.stat().st size 

for path in home.glob('ch 01*/*.rst')) 
>>> ch2 = list(path.stat().st size 
for path in home.glob('ch 02*/*.rst')) 
>>> len(ch1) 































































































>>> len(ch2) 


>>> final = ch1l + ch2 
>>> len(final) 


ee 

我 们 创建 了 一 个 名 称 类 似 ch_01*/*.xst 的 文档 大 小 的 列表 。 然后, 创建 了 另 一 个 具有 稍微 不 同 
的 名 称 模式 ch_02*/*.rst 的 文档 大 小 的 列表 。 最 后 ， 将 这 两 个 列表 合并 成 一 个 最 终 列表 。 

还 可 以 使 用 extena () 方 法 。 我 们 将 再 次 使 用 上 例 中 的 两 个 列表 并 构建 一 个 新 的 列表 。 


>>> final ex = [] 
>>> final ex.extend (ch1) 
>>> final ex.extend (ch2) 
>>> len (final ex) 





















































>>> sum (final ex) 
104898 


append() 没 有 返回 值 ，extend() 也 不 返回 值 。extend() 方 法 改变 了 列表 对 象 。 
我 们 也 可 以 在 列表 的 任意 位 置 之 前 插入 一 个 值 。insert () 方 法 接受 一 个 元 素 的 位 置 ， 新 值 将 插 
在 给 定 的 位 置 之 前 。 
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>>> p = [3, 5, 11, 13] 
>>> p.insert(0, 2) 

>>> p 

[2, 3, 5, 11, 13] 

>>> p.insert(3, 7) 

>>> p 


[2, 3, 5, 7, 11, 13] 








我 们 向 列表 对 象 中 插入 了 两 个 新 值 。 与 append () 和 extend () 一样 ， 





改变 了 列表 对 象 。 
4.3.5 延伸 阅读 


口 有 关 复 制 列 表 和 从 列表 中 选择 子 列表 的 方法 ， 请 参阅 4.4 节 。 
口 有 关 从 列表 中 删除 元 素 的 其 他 方法 ， 请 参阅 4.5 节 。 
D 4.6 市 将 介绍 翻转 列表 的 方法 。 



































insert () 也 不 返回 值 , 它 


口 有 篇 文章 提供 了 一 些 关 于 Python 集合 如 何在 内 部 工作 的 见解 , 详 见 https://wiki.python.org/moin/ 





TimeComplexity。 在 查看 表格 时 ,请 注意 ，O(1) 意 味 着 开销 基本 上 是 恒定 的 ， 而 O(n) 表 示 开 销 
随 着 我 们 尝试 处 理 的 元 素 的 索引 而 变化 ， 这 意味 着 开销 随 着 集合 规模 的 增长 而 增长 。 




















4.4 切片 和 分 割 列 表 


很 多 时 候 , 我 们 需要 从 列表 中 选择 元 素 。 最 常见 的 处 理 方式 之 一 就 是 将 列表 的 第 一 个 元 素 视 为 特 






































殊 情 况 。 这 种 处 理 方式 是 一 种 首尾 〈head-tail ) 处 理 ， 首 尾 处 理 对 待 列 表 头 部 元 素 的 方式 与 列表 尾部 








元 素 不 同 。 
我 们 也 可 以 使 用 这 些 技术 制作 列表 的 副本 。 


4.4.1 准备 工作 
假设 我 们 有 一 个 记录 大 型 帆船 燃料 消耗 的 电子 表格 ， 其 内 容 如 下 。 




































































date engine on fuel height 
engine off 
Other notes 
10/25/2013 08:24 29 
13:15 27 
calm seas—anchor solomon’s island 
10/26/2013 09:12 27 
18:25 22 
choppy 一 anchor in jackson’s creek 
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燃料 高 度 (fuel height ) ? 是 的 。 我 们 没有 能 够 估算 油箱 中 燃油 量 的 浮 球 传感器 ， 所 以 使 用 观测 计 
( sight-gauge ) 直接 观测 燃料 。 观 测 计 以 英寸 深度 校准 。 出 于 实际 考虑 ,油箱 是 长 方形 的 ， 所 以 深度 可 
以 轻易 地 转换 为 体积 ，31 英寸 深 大 约 是 75 加 仑 。 
重要 的 是 电子 表格 的 数据 没有 正确 归 一 化 。 理 想 情况 下 ， 每 行 数据 都 遵循 第 一 范式 ， 即 每 行 都 
有 一 致 的 内 容 ， 每 个 单元 格 都 只 有 原子 值 。 

我 们 的 数据 没有 正确 归 一 化 ， 数 据 包 含 4 行 标题 。csv 模块 无 法 直接 处 理 这 些 数据 。 我 们 需要 通 
过 切片 移 除 other notes 以 上 的 行 ， 还 需要 组 合 每 天 2 行 的 航行 记录 ， 以 便 更 容易 计算 航行 所 用 时 
间 和 使 用 的 燃料 英寸 数 。 

读 取 数据 的 过 程 如 下 所 示 : 


>>> from pathlib import Path 
>>> import csv 































































































>>> with Path('code/fuel.csv').open() as source file: 
reader = csv.reader(source file) 
log_rows = list(reader) 

>>> log_rows[0] 

['date', 'engine on', 'fuel height'] 

>>> log_rows[-1] 

['', "choppy -- anchor in jackson's creek", ''] 














我 们 使 用 了 csv 模块 来 读 取 日 志 的 详细 信息 。csv .reader () 是 一 个 可 迭代 对 象 。 为 了 将 元 素 收 
集 到 一 个 单独 的 列表 中 ， 我 们 应 用 了 1ist () 函数 。 最 后 查看 列表 中 的 第 一 个 和 最 后 一 个 元 素 ， 以 确 
认 是 否 成 功 创建 了 一 个 由 列表 组 成 的 列表 结构 。 

原始 CSV 文件 中 的 每 行 都 是 一 个 列表 ， 每 个 子 列表 都 具有 3 个 元 素 。 

本 实例 将 使 用 列表 索引 表达 式 的 扩展 形式 从 列表 中 切 分 元 素 。 切片 类 似 于 索引 ,以 [1] 形式 跟随 在 
列表 对 和 象 之 后 。Python 提供 了 切片 表达 式 的 多 种 变 体 。 切 片 可 以 包含 由 :字符 分 隔 的 2 个 值 或 3 个 值 。 
可 以 使 用 :stop、start:、start:stop、start:stop:step 或 其 他 变 体 。 默 认 步 长 (step ) 值 为 1。 
默认 起 始 值 ( start ) 是 列表 的 第 一 个 索引 值 ， 默 认 终 止 值 (ena ) 是 列表 的 最 后 一 个 索引 值 。 

如 何 切片 和 分 割 原始 列表 来 选择 我 们 需要 的 行 ? 


4.4.2 ”实战 演练 































































































(1) 首先 ， 从 行 的 列表 中 删除 4 行 标题 。 使 用 2 个 切片 表达 式 在 列表 的 第 四 行 分 割 列表 。 
>>> head, tail = log rows[:4], log_ rows[4:] 

>>> head[0] 

['date', 'engine on', 'fuel height'] 

>>> head[-1] 
[3 | 

>>> tail[0] 

['10/25/13', '08:24:00 AM', '29'] 
>>> tail[-1] 








['', "choppy -- anchor in jackson's creek", ''] 














我 们 使 用 log_rows[:4] 和 1og_rows[4:] 将 列表 切 分 为 2 个 部 分 。 变 量 head 包含 4 行 标题 。 
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我 们 不 想 对 表 头 做 任何 处 理 ， 所 以 忽略 了 这 个 变量 。 变 量 tail 具有 我 们 实际 需要 的 工作 表 的 行 。 

(2) 使 用 带 步 长 的 切片 选择 我 们 感 兴趣 的 行 。[start : :step] 形 式 的 切片 表达 式 根据 步 长 值 分 组 
选择 行 。 本 例 将 使 用 两 个 切片 ， 一 个 切片 从 第 0 行 开 始 ， 另 一 个 切片 从 第 1 行 开始 。 

从 第 0 行 开始 的 每 个 第 3 行 的 切片 如 下 所 示 : 

>>> tail[0::3] 

[['10/25/13', '08:24:00 AM', '29'], 

['10/26/13', '09:12:00 AM', '27']] 

从 第 1 行 开始 的 每 个 第 3 行 的 切片 如 下 所 示 : 

>>> tail[1::3] 

[['', '01:15:00 PM', '27'], ['', '06:25:00 PM', '22']] 


(3) 将 这 两 个 切片 打包 在 一 起 。 


>>> list( zip(tail[0::3]，tail[1::3]) ) 
[(['10/25/13', '08:24:00 AM', '29'], ['', '01:15:00 PM', '27']), 
{LI*10/267113"; "09512500 AM ;> 1274117 [L's 006525500 PM's 22"])] 


将 列表 分 为 两 个 相似 的 分 组 。 

口 [0::3] 切 片 从 第 0 行 开始 ， 每 隔 3 行 取 1 行 ， 即 第 0、3、6、9 行 等 。 

口 [1::3] 切 片 从 第 1 行 开 始 ,每 隔 3 行 取 1 行 ， 即 第 1、4、7、10 行 等 。 

使 用 zip () 函数 来 组 合 这 两 个 来 自 列 表 的 序列 ， 最 终生 成 一 个 由 元 组 组 成 的 序列 。 
(4) 展 平 (flatten ) 结 


>>> paired rows = list( zip(tail[0::3]，tail[1::3]) ) 
>>> [a+b for ab in paired rows] 
[['10/25/13', '08:24:00 AM', '29', '', '01:15:00 PM', '27'], 
['10/26/13', '09:12:00 AM', '27', '', '06:25:00 PM', '22']] 
我 们 使 用 了 4.3 节 中 的 列表 解析 式 来 组 合 元 组 中 的 两 个 元 素 ， 以 创建 单个 行 。 现 在 可 以 将 日 期 和 
时 间 转 换 成 aatetime 值 。 然后 ,可 以 通过 计算 时 间 差 获得 帆船 的 航行 时 间 ， 通 过 燃料 的 高 度 差 来 估 
算 燃 料 的 消耗 量 。 


4.4.3 工作 原理 


切片 操作 符 的 常见 形式 如 下 。 

口 [:]: 起 始 和 终止 是 隐 含 的 。 表 达 式 s1 : ] 将 复制 序列 $。 
口 [:stop] : 得 到 从 列表 起 始 到 stop 值 之 前 的 新 列表 。 

口 [start:]: 得 到 从 给 定 的 start 值 到 序列 结尾 的 新 列表 。 
口 [start:stop]: 从 起 始 索引 start 开始 选择 一 个 子 列表 ， 并 在 终止 索引 stop 之 前 停止 。 



























































































































































Python 的 索引 范围 为 半 开 区 间 ， 包 含 起 始 元 素 ， 不 包含 终止 元 素 。 
口 [: :step]: 起 始 和 终止 是 隐 含 的 ， 包 括 整 个 序列 。 步 长 step 一 般 不 等 于 1， 这 意味 着 从 一 开 


台 就 使 用 该 步 长 跳 过 列表 。 对 于 给 定 的 步 长 s 和 列表 的 大 小 | 二 |, 索 引 值 为 ;es | xn:0<n< 4 
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4.5 从 列表 中 删除 元 素 
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口 [start::step]: 起 始 索引 start 是 给 定 的 , 但 终止 索引 stop 是 隐 含 的 。 起 始 索 引 start 
是 一 个 偏 移 量 ， 将 步 长 step 应 用 于 该 偏 移 量 。 对 于 给 定 的 起 始 索 引 a、 步 长 * 和 列表 的 大 小 
| 工 |， 索引 值 为 ze arsxn0en< | 


8 

口 [:stop:step]: 用 于 防止 处 理 列表 中 最 后 几 个 元 素 。 由 于 给 出 了 步 长 step， 因 此 处 理 从 索 
引 值 为 0 的 元 素 开 始 。 

口 [start:stop:step]: 从 序列 的 子 集中 选择 元 素 。 起 始 索引 start 之 前 和 终止 索引 stop 之 
后 的 元 素 不 会 用 到 。 

团 片 技 术 适 用 于 列表 、 元 组 、 字 符 串 和 其 他 任何 类 型 的 序列 。 切 片 技术 不 会 更 改 对 象 ， 而 是 制作 
元 素 的 副本 。 










































































4.4.4 补充 知识 


4.6 节 将 介绍 一 种 切片 表达 式 的 复杂 用 法 。 

该 副本 被 称 为 浅 副 本 shallow copy )， 因 为 我 们 将 拥有 两 个 包含 对 相同 底层 对 象 的 引用 的 集合 。 
4.14 节 将 详细 介绍 浅 副本 。 

对 于 本 实例 ， 还 可 以 使 用 生成 器 函数 将 多 行 数 据 重 组 为 单行 数据 。 第 8 章 将 介绍 函数 式 编程 
技术 。 


















































4.4.5 延伸 阅读 


口 有 关 创建 列表 的 方法 ， 请 参阅 4.3 节 。 
口 有 关 从 列表 中 删除 元 素 的 其 他 方法 ， 请 参阅 4.5 节 。 
口 4.6 节 将 讨论 如 何 反 转 列表 。 











4.5 ”从 列表 中 删除 元 素 一 一 del 语句 、remove() 、pop() 和 filter() 


很 多 时 候 需要 从 列表 中 移 除 元 素 。 可 以 先 从 列表 中 删除 元 素 ， 然 后 再 处 理 剩 下 的 元 素 。 

移 除 不 需要 的 元 素 和 使 用 filter () 创建 所 需 元 素 的 副本 具有 相似 的 效果 。 两 者 的 区 别 在 于 ， 过 
滤 列 表 得 到 的 副本 将 比 从 列表 中 删除 元 素 使 用 更 多 的 内 存 。 本 实例 将 展示 两 种 从 列表 中 移 除 不 需要 的 
元 素 的 技术 。 


4.5.1 准备 工作 
假设 我 们 有 一 个 记录 大 型 帆船 燃料 消耗 的 电子 表格 ， 其 内 容 如 下 。 
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date engine on fuel height 
engine off 








Other notes 




















10/25/2013 08:24 29 
13:15 27 
calm seas 一 anchor solomon'”s island 

10/26/2013 09:12 27 
18:25 22 








choppy 一 anchor in jackson’s creek 


有 关 该 表格 的 更 多 背景 信息 ， 请 参阅 4.4 入。 
读 取 数 据 的 过 程 如 下 所 示 : 


>>> from pathlib import Path 

>>> import csv 

>>> with Path('code/fuel.csv') .open() as source file: 
reader = csv.reader(source file) 
log_ rows = list(reader) 

>>> log_rows[0] 

['date', 'engine on', 'fuel height'] 

>>> log_rows[-1] 






































['', "choppy -- anchor in jackson's creek", ''] 





我 们 使 用 了 csv 模块 来 读 取 日 志 的 详细 信息 。csv .reader () 是 一 个 可 迭代 的 对 象 。 为 了 将 元 素 
收集 到 一 个 单独 的 列表 中 ， 我 们 应 用 了 1ist () 函数 。 最 后 查看 了 列表 中 的 第 一 个 元 素 和 最 后 一 个 元 
素 ， 以 确认 是 否 成 功 创建 了 一 个 由 列表 组 成 的 列表 结构 。 

原始 CSV 文件 中 的 每 一 行 都 是 一 个 列表 ， 每 个 列表 都 具有 3 个 元 素 。 

4.5.2 ”实战 演练 


本 实例 将 介绍 4 种 从 列表 中 移 除 内 容 的 方法 : 











































































































口 ael 语句 ; 

口 remove () 方 法 ; 

口 bop () 方 法 ; 

口 使 用 filter () 函数 创建 去 除 选择 行 的 列表 副本 。 








1. 从 列表 中 删除 元 素 

可 以 使 用 ael 语句 从 列表 中 移 除 元 素 。 

为 了 便于 在 交互 式 提示 符 下 按照 示例 演练 ， 我 们 将 复制 该 列表 。 因 为 如 果 从 原始 的 log_rows 列 
表 中 删除 行 , 那么 后 续 示 例 可 能 会 很 难 继续 运行 。 在 实际 的 程序 中 , 我 们 不 会 再 创建 这 个 额外 的 副本 。 
我 们 也 可 以 用 1og_rows [ :] 来 复制 原始 列表 。 


>>> tail = log_rows .copy() 
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del 语句 的 使 用 方法 如 下 所 示 : 


>>> del tail[:4] 

>>> tail[0] 

['10/25/13', '08:24:00 AM', '29'] 

>>> tail[-1] 

['', "choppy -- anchor in jackson's creek", ''] 


del 语句 从 tail 中 移 除 了 标题 行 ， 留 下 了 真正 需要 处 理 的 行 。 随 后 可 以 使 用 4.4 节 中 的 实例 来 
组 合 和 汇总 这 些 行 。 

2. remove () 方 法 

可 以 使 用 remove () 方 法 从 列表 中 移 除 元 素 。 该 方法 将 从 列表 中 移 除 匹 配 的 元 素 。 示 例 列 表 如 下 : 

>>> row = ['10 / 25/13', '08: 24: 00 AM', '29', '', '01: 15: 00 PM', '27'] 

列表 中 有 一 个 无 用 的 ， 字 符 串 。 


>>> row.remove('') 
>>> row 
['10/25/13', '08:24:00 AM', '29', '01:15:00 PM', '27'] 







































































请 注意 ，remove () 方 法 没有 返回 值 ， 它 将 原 位 更 改 列表 。 这 是 一 个 适用 于 可 变 对 象 的 重要 特质 。 











zemove () 方 法 没有 返回 值 。 

zemove () 方法 更 改 了 列表 对 象 。 
人 如 下 所 示 的 错误 代码 是 非常 常见 的 : 

a 

a 


['some', 'data'] 
a.remove('data') 


上 述 代 码 明显 是 错误 的 ，a 将 被 设置 为 None。 


3. pop () 方 法 

可 以 使 用 pop () 方 法 从 列表 中 移 除 元 素 。 该 方法 根据 索引 从 列表 中 移 除 元 素 。 示 例 列 表 如 下 : 
>>> row = ['10 / 25/13', '08: 24: 00 AM', '29', '', '01: 15: 00 PM', '27'] 

列表 中 有 一 个 无 用 的 '' 字 符 串 。 


>>> target position = row.index('') 
>>> target position 
3 


>>> row.pop (target position) 

















>>> row 
['10/25/13', '08:24:00 AM', '29', '01:15:00 PM', '27'] 


请 注意 ，pop () 方 法 对 列表 有 两 种 影响 : 

口 更 改 列表 对 象 ; 

口 返回 被 移 除 的 值 。 

4. filter() 水 数 

还 可 以 通过 构建 副本 来 移 除 元 素 ， 这 个 副本 通过 所 需 的 元 素 并 拒绝 不 需要 的 元 素 。 本 实例 
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filter() 国 数 的 实现 方法 如 下 。 














(1) 识别 希望 通过 或 拒绝 的 元 素 的 特征 。filter () 函数 接受 通过 数据 的 规则 ， 该 函数 的 相反 逻 得 











将 拒绝 数据 。 
本 例 所 需 的 行 在 第 二 列 中 有 一 个 数值 。 可 以 




















上 





个 辅助 函数 检测 该 值 。 























(2) 编写 过 滤 测 试 函 数 。 如果 函数 规模 较 小 , 可 以 使 用 1ambda 对 象 。 否则 , 编写 一 个 单独 的 函数 


>>> def number column(row, column=2): 
try: 
float (row[column]) 
return True 
except ValueError: 
return False 


我 们 使 用 了 内 置 的 float () 函数 来 确定 给 定 的 字符 串 是 否 是 正确 的 数字 



































。 如 果 float () 函数 没有 





抛 出 异常 ， 那 么 数据 是 有 效 的 数字 ， 该 行将 通过 。 如 果 抛 出 异常 ,那么 数据 不 是 数字 ， 该 行将 被 拒绝 。 





(3) 在 filter() 函数 中 使 用 过 滤 测 试 函 数 (或 lambda ) 以 及 原始 数据 。 


>>> tail rows = list(filter(number column, log_ rows)) 
>>> len(tail_ rows) 
4 


>>> tail_ rows[0] 

['10/25/13', '08:24:00 AM', '29'] 
>>> tail rows[-1] 

['', '06:25:00 PM', '22'] 





我 们 提供 了 测试 函数 numper_column () 和 原始 数据 10g_rows。filter () 函数 的 输出 是 可 适 代 

















的 。 为 了 从 迭代 结果 创建 一 个 列表 ， 这 里 将 使 用 1ist () 函数 。 结 果 ee 4 行 , 


被 拒绝 了 。 





























果 是 一 样 的 。 
4.5.3 工作 原理 


因为 列表 是 可 变 对 象 ， 所 以 可 以 从 列表 中 移 除 元 素 。 这 种 技术 不 适用 于 元 
合 都 是 序列 ， 但 是 只 有 列表 是 可 变 的 。 


























其 余 的 行 


我 们 并 没有 真正 删除 这 些 行 ， 而 是 创建 了 一 个 忽略 这 些 行 的 副本 。 无 论 删 除 还 是 和 忽略， 最终 的 结 
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我 们 只 能 移 除 具有 列表 中 存在 的 索引 的 元 素 。 如 果 尝 试 移 除 索引 超出 允 鹿 
到 一 个 IndexError 异常 。 例 如 : 





>>> row = ['', '06:25:00 PM', '22'] 
>>> del row[3] 
Traceback (most recent call last): 
File "<pyshell#38>", line 1, in <module> 
del row[3] 
IndexError: list assignment index out of range 





F 范 围 的 元 素 ,， 那么 将 得 
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4.5.4 补充 知识 























用 列表 ， 则 无 法 从 列表 中 删 











在 某 些 情况 下 , 这些 技 术 无 法 正常 工作 。 例 如， 如 果 在 for 语句 中 使 
除 元 素 。 

假设 我 们 想 从 列表 中 移 除 所 有 偶数 值 元 素 。 无 法 正常 工作 的 示例 如 下 : 

>>> data items = [1, 1, 2, 3, 5, 8, 10, 

13% "21y: 34y. 367..:551 

>>> for f in data items: 

六 if f%2 == 0: data items.remove(f) 

>>> data_ items 


[1, 1, 3, 5, 10, 13, 21, 36, 55] 


结果 显然 是 不 正确 的 。 为 什么 一 些 偶数 值 元 素 仍 然 留 在 列表 里 ? 























可 以 观察 一 下 ， 当 处 理 值 为 8 的 元 素 时 ， 会 发 生 什么 情况 。 运 行 remove () 方 法 ，8 将 被 移 除 ， 
并 且 所 有 后 续 值 将 向 前 滑动 一 个 位 置 ，10 将 移动 到 先前 8 所 在 的 位 置 。 列 表 的 内 部 索引 将 向 前 移动 











到 下 一 个 位 置 ， 即 13 所 在 的 位 置 。10 将 永远 不 会 被 处 理 。 





























如 果 向 列表 中 间 插 入 for 循环 中 的 驱动 迭代 , 那么 也 会 发 生 错误 。 在 这 种 情况 下 ,元 素 将 被 处 理 





两 次 。 
避免 skip-when-delete 问题 的 方法 有 两 种 。 
口 创建 列表 的 副本 。 


for f in data_ items[:]: 
口 使 用 手动 索引 的 while 循环 。 


>>> data_items = [1, 1, 2, 3, 5, 8, 10, 
13, 21, 34, 36, 55] 

>>> position = 0 

>>> while position != len(data items): 
f= data items[position] 
if f%2 == 0: 

data_items.remove(f) 

else: 

了 position += 1 

>>> data_items 

[Ly 3 Dy T3721;.55] 
































我 们 设计 了 一 个 循环 ， 只 有 当 元 素 是 奇数 时 ， 它 才 会 递增 位 置 。 如 果 元 素 是 偶数 ， 那 么 它 将 被 移 





除 ， 而 其 他 元 素 将 在 列表 中 向 前 移动 一 个 位 置 。 





4.5.5 延伸 阅读 

口 关于 创建 列表 的 方法 ， 请 参阅 4.3 节 。 

口 关于 复制 列表 和 从 列表 中 选择 子 列 表 的 方法 ， 请 参阅 4.4 节 。 
口 4.6 节 将 介绍 如 何 反 转 列表 。 
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4.6 反 转 列表 的 副本 





我 们 有 时 需要 反 转 列表 中 元 素 的 顺序 。 例 如 ， 一 些 算法 以 相反 的 顺序 产生 结果 。 本 实例 将 关注 数 








字 转 换 为 特定 基数 的 方法 ,通常 按 从 最 不 重要 的 数字 到 最 重要 的 数字 的 顺序 生成 。 我 们 通常 希望 首先 











旺 








显示 最 重要 的 数字 ， 这 导致 需要 反 转 列表 中 的 数字 序列 。 























反 转 列表 的 方法 有 两 种 ， 第 一 种 是 reverse () 方 法 ， 第 二 种 是 一 个 便捷 的 诀 穿 。 


4.6.1 准备 工作 


表示 的 方法 。 





每 天 24 小 时 、 每 小 时 60 分 钟 和 每 分 钟 60 秒 。 











假设 我 们 在 数字 基数 之 间 进 行 转换 。 首 先 了 解 一 下 用 基数 表示 数字 的 方法 ,以 及 计算 数字 的 基数 














任意 值 vy 可 以 定义 为 以 给 定 基数 5b 表示 的 每 位 数字 q, 的 多 项 式 函 数 。 
v=d, xb"+d, ,xb +d, , xb" +...+d/xb+d, 
有 理 数 的 位 数 是 有 限 的 ， 无 理 数 的 位 数 是 无 限 的 。 
例如 ， 数字 0xBEEF 是 基数 为 16 的 值 。 每 位 数字 的 关系 为 1B=11, E=14, F=15}, 基数 b=16。 
48 879=11x163 +14x162+14x16+15 
可 以 用 一 种 更 高 效 的 计算 形式 来 重新 说 明 该 方法 。 
=(…(C xb+d, )xb+d,,)xb++d)xb+d, 
在 许多 情况 下 ， 基 数 不 是 某 个 数 的 一 致 时 。 例 如 ，ISoO 日 期 格式 具有 混合 基数 ， 包 括 每 周 7 天 、 









































给 定 周 数 、 星 期 数 、 小 时 数 、 分 钟 数 和 秒 数 ， 根 据 给 定 的 年 份 ， 可 以 计算 出 一 个 以 秒 为 单位 的 时 


间 戳 A。 


t,=(((wx7+d)x24+M)x60+m)x60+s 





例如 : 


>>> week = 13 

>>> day = 2 

>>> hour = 7 

>>> minute = 53 

>>> Second = 19 

>>> t_s = (((week*7+day)*24+hour)*60+minute)*60+second 


2 ts 
8063599 


如 何 反 转 这 个 计算 过 程 ? 如 何 从 时 间 戳 中 获取 各 个 字段 的 值 ? 

我 们 需要 使 用 sivmoa 风格 的 除法 。 相 关 背 景 信息 ， 请 参阅 1.5 节 。 

巴 以 秘 为 单位 的 时 间 戳 转换 为 单独 的 周 数 、 星 期 数 和 时 间 字 段 的 算法 如 下 。 
t,, $§ <1,/60, 上 mod 60 

ti, m<—t,/60, 1, mod 60 

tj, ht,/60, ,mod 24 

w, d ¢-t,/60, t, mod7 























rr 
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如 下 代码 可 以 简洁 地 实现 上 述 算法 ， 结 果 以 逆序 生成 各 项 字段 值 : 

>>> 上 Ss = 8063599 

>>> fields = [] 

>>> for b in 60, 60, 24, 7: 

t_s, £f = divmod(t_s, b) 

CE fields.append(f) 

>>> fields.append(t_s) 

>>> fields 

[19, 53, 7, 2, 13] 

我 们 应 用 了 divmoqd() 函数 4 次 ， 从 以 秒 为 单位 的 时 间 戳 提取 了 秒 数 、 分 钟 数 、 小 时 数 、 星 期 数 
和 周 数 。 它 们 的 顺序 是 错误 的 ， 如 何 反 转 顺 序 ? 


4.6.2 ”实战 演练 


反 转 列表 的 副本 有 两 种 方法 : 使 用 reverse () 方 法 或 者 [: :-1] 切 片 表达 式 。reverse () 方 法 的 
示例 如 下 : 


>>> fields copyl1 = fields.copy() 
>>> fields_ copyl.reverse() 

>>> fields_ copyl 

[13, 2, 7, 53,，19] 


我 们 首先 创建 了 一 个 原始 列表 的 副本 ， 以 便 保 留 未 更 改 的 副本 来 比较 已 更 改 的 副本 。 这 样 更 容易 
理解 这 些 示 例 。 然 后 应 用 reverse () 方 法 反 转 列表 的 副本 。 

该 方法 将 更 改 列 表 。 与 其 他 会 更 改 对 象 的 方法 一 样 ， 该 方法 不 会 返回 有 用 的 值 。 使 用 a = 
b.reverse() 这 样 的 语句 是 错误 的 ，a 的 值 永远 为 None。 

负 值 步 长 的 切片 表达 式 如 下 所 示 : 


>>> fields copy2 = fields[::-1] 
>>> fields_copy2 
13 "22 Tr 533. 9] 


本 例 创建 了 一 个 [: :-1] 切 片 ， 其 中 起 始 值 和 终止 值 为 隐 含 的 ， 步 长 为 -1。 该 切片 将 以 相反 的 顺 
序 选择 列表 中 的 所 有 元 素来 创建 一 个 新 列表 。 

该 切片 操作 明显 没有 更 改 原始 的 列表 ， 而 是 创建 了 一 个 副本 。 检 查 fields 变量 的 值 将 会 发 现 ， 
它 没有 改变 。 


4.6.3 工作 原理 


正如 4.4 节 中 所 提 到 的 , 切片 标记 相当 复杂 。 使 用 负 步 长 的 切片 将 创建 一 个 副本 (或 子 集 )， 创 建 
过 程 中 将 以 从 右 到 左 的 顺序 处 理 元 素 ， 而 不 是 默认 的 从 左 到 右 的 顺序 。 

区 分 reverse() 和 [::-1] 这 两 种 方法 很 重要 。 
口 reverse () 方 法 修改 列表 1ist 对 象 本 身 。 类 似 于 append () 和 remove() 方 法 ,这 种 方法 没 
有 返回 值 。 它 更 改 列表 ， 所 以 并 不 返回 值 。 
口 [: :-1] 切 片 表达 式 创建 一 个 新 的 列表 。 该 列表 是 顺序 反 转 的 原始 列表 的 浅 曙 
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4.6.4 ”延伸 阅读 


口 关于 浅 副 本 和 深 副 本 的 详细 信息 ， 请 参阅 4.14 节 。 

口 关于 创建 列表 的 方法 ， 请 参阅 4.3 节 。 

口 关于 复制 列表 以 及 从 列表 中 选择 子 列表 的 方法 ， 请 参阅 4.4 节 。 
口 关于 从 列表 中 删除 元 素 的 其 他 方法 ， 请 参阅 4.5 节 。 


4.7 ”使 用 set 方法 和 运算 符 


构建 集 ( set ) 的 方法 有 很 多 。 可 以 使 用 set () 函数 将 现 有 的 集合 转换 为 集 ， 也 可 以 使 用 aaa () 
方法 把 元 素 放 人 集中， 还 可 以 使 用 update () 方 法 和 并 集运 算 符 | 从 其 他 集 创 建 一 个 较 大 的 集 。 

本 实例 将 使 用 一 个 集 来 说 明 我 们 是 否 从 统计 数据 池 中 看 到 了 一 个 完整 的 值 域 。 在 扫描 样本 时 ， 本 
实例 将 构建 一 个 集 。 

在 进行 探索 性 数据 分 析 时 , 我 们 需要 回答 一 个 问题 : 数据 是 否 随 机 ? 许多 数据 集合 在 具有 普通 噪 
声 的 数据 中 存在 差异 。 不 在 复杂 的 建 模 和 随机 数 分 析 上 浪费 时 间 非 常 重要 。 

对 于 离散 或 连续 的 数值 数据 ， 比 如 以 米 为 单位 的 水 深 或 以 字 节 为 单位 的 文件 大 小 ， 可 以 使 用 平均 
值 和 标准 差 来 确定 给 定 的 数据 集合 是 否 是 随机 的 。 我 们 期 望 样本 的 平均 值 与 标准 差 测 量 范 围 内 的 平均 
值 相 匹配 。 

对 于 分 类 数据 ， 比 如 客户 ID 号 码 或 电话 号 码 ， 我 们 无 法 计算 平均 值 或 标准 差 。 这 些 值 必须 以 不 
同 的 方式 进行 计算 。 

优惠 券 收 集 测试 〈coupon collector’s test ) 是 一 种 用 于 确定 分 类 数据 随机 性 的 技术 。 通 过 该 测试 ， 
我 们 将 看 到 在 找到 一 整套 优惠 券 之 前 , 需要 检查 多 少 项 。 客 户 访问 序列 是 否 随机 ? 还 是 访问 序列 有 一 
些 其 他 分 布 ” 如 果 数 据 不 是 随机 的 ， 那 么 可 以 对 这 些 原因 进行 更 多 的 研究 。 

集 是 这 种 技术 的 核心 。 我 们 将 向 一 个 集中 添加 元 素 ， 直 到 每 个 客户 都 出 现 一 次 。 

如 果 客 户 随 机 到 访 ， 那 么 可 以 在 客户 到 访 至 少 一 次 之 前 ， 预 测 预期 的 访问 次 数 。 整 个 域 的 总 

体 预 计 到 达 次 数 是 域 中 每 个 客户 到 达 次 数 的 总 和 。 这 等 于 客户 的 数量 n 乘 以 第 n 个 谐 波 次 数 


( harmonic number ) H,: 





























































































































































































































E=nxH,=nx((/D+0/2)+0/3)+(/n)) 
这 是 在 所 有 客户 到 访 之 前 预期 的 平均 访问 次 数 。 如 果实 际 的 平均 到 达 次 数 符合 所 有 客户 正在 访问 
的 期 望 值 ， 那 么 就 不 需要 再 浪费 时 间 研 究 符合 我 们 期 望 的 数据 。 如 果实 际 的 平均 水 平 不 符合 预期 ， 一 
些 客户 不 像 其 他 客户 那样 频繁 访问 ， 那 么 我 们 就 需要 深入 研究 其 原因 。 


4.7.1 准备 工作 

本 实例 将 使 用 一 个 Python 集 来 表示 优惠 券 的 集合 。 我 们 需要 一 组 可 能 ( 或 可 能 没有 ) 适当 分 布 的 
优惠 券 数据 。 假 设 一 组 有 8 个 客户 。 

模拟 客户 以 随机 顺序 到 访 的 函数 如 下 所 示 。 客 户 以 数字 的 形式 表示 为 半 开 区 间 [0, n] ,所 有 的 客户 
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c 符 合 规则 0 < c <n。 


>>> import random 
>>> def arrivall(n=8): 
while True: 
Yield random.randrange (n) 


arrivall () 孙 数 将 产生 无 穷 的 值 序列 。 函 数 名称 中 的 arrival 之 后 有 一 个 1。 这 个 名 称 可 能 
起 来 像 拼 写 错误 ,但 是 我 们 使 用 1 后 缀 以 便 创 建 奉 代 实现 。 
我 们 需要 对 生成 的 值 的 数量 加 上 一 个 上 限 。 有 样本 数量 上 限 的 函数 如 下 : 


>>> def samples(limit, generator): 
for n, value in enumerate(generator): 
if n == limit: break 
yield value 


该 生成 器 函数 使 用 另 一 个 生成 器 作为 元 素 的 来 源 。 我 们 将 使 用 arrival1 () 函数 。samples () 也 
数 枚 举 来 自 较 大 集合 的 元 素 ， 并 在 收集 到 足够 的 元 素 时 停止 。 由 于 arrival1 () 函数 能 够 生成 无 限 个 
元 素 ， 因 此 这 个 边界 至 关 重 要 。 

使 用 这 些 函 数 模 拟 客户 到 访 情 况 的 方法 如 下 。 我 们 将 生成 一 个 客户 ID 号 码 序列 。 


>>> random.seed(1) 
>>> list(samples(10, arrivall())) 
E27 Tr Ay Li Tr TT 737 1 


强制 随机 数 生 成 器 具有 特定 的 种 子 值 ， 以 便 产 生 一 个 已 知 的 测试 序列 。 将 samples () 函数 应 用 
于 arrivall() 函数 ， 以 产生 10 个 客户 访问 的 序列 。 客 户 7 似乎 有 很 多 重复 的 业务 ， 客 户 0 和 客户 5 
没有 出 现 。 

这 只 是 一 个 数据 模拟 。 企 业 将 使 用 销售 收据 来 确定 客户 访问 情况 。 网 站 可 能 会 在 数据 库 中 记录 访 
问 数 据 ， 或 者 抓 取 Web 日 志 来 确定 实际 值 的 顺序 。 

在 所 有 8 个 客户 到 访 之 前 ， 预 期 的 访问 次 数 是 多 少 ? 


>>> from fractions import Fraction 
>>> def expected (n=8): 
return n * sum(Fraction(1, (i+1)) for i in range(n)) 


该 函数 创建 一 系列 分 数 ， 从 1/11、1/2， 一 直到 1/n。 将 它们 相 加 并 乘 以 n。 


>>> expected(8) 

Fraction(761, 35) 

>>> round (float (expected(8))) 
22 


平均 22 次 访问 之 后 ， 我 们 才能 看 到 所 有 的 8 个 客户 。 
在 所 有 8 个 客户 到 访 之 前 ， 如 何 使 用 集 创建 实际 访问 次 数 的 统计 数据 ? 
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4.7.2 ”实战 演练 


遍历 每 个 客户 的 访问 时 ,我 们 将 客户 ID 放 入 一 个 集中 。 集 不 会 保存 重复 项 ， 一 旦 一 个 客户 ID 是 该 
集 的 成 员 ， 那 么 再 次 添加 该 值 并 不 会 改变 这 个 集 。 我 们 将 在 本 实例 中 总 结 步骤 ， 然 后 显示 完整 的 函数 。 
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(1) 从 一 个 空 集 和 一 个 零 计 数 器 开始 。 

(2) 使 用 一 个 for 循环 来 访问 所 有 数据 元 素 。 

(3) 将 下 一 个 元 素 添加 到 集中 ,计数 器 加 1。 

(4) 如 果 集 的 元 素 添加 完成 ， 那 么 就 可 以 产生 计数 。 这 个 计数 就 是 获取 完整 的 集 所 需 的 客户 数量 。 
产生 计数 后 ， 清 空 集 并 将 计数 器 初始 化 为 零 ， 准 备 统计 下 一 个 客户 。 

函数 如 下 所 示 : 


def coupon collector(n, data): 
count, collection = 0, set() 
for item in data: 
GOUNt 一 
collection.add (item) 
if len(collection) = 
yield count 
count, collection = 0, set() 


该 函数 将 count 设置 为 0 并 创建 一 个 空 集 collection ,我 们 将 在 collection 中 收集 客户 ID。 
我 们 将 逐个 访问 源 数据 值 序列 data 中 的 每 个 元 素 。count 值 表 示 有 多 少 访问 者 。 变 量 collection 
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的 值 是 不 同 访问 者 的 集 。 
集 的 aaa () 方 法 将 更 改 集 , 添加 一 个 与 集中 原 有 元 素 不 同 的 值 。 如 果 该 值 已 经 在 集中 ， 则 集 的 内 
容 不 会 发 生变 化 。 








当 collection 的 大 小 符合 目标 大 小 时 ， 我 们 将 获得 一 套 完整 的 优惠 券 。 我 们 可 以 生成 count 
的 值 ， 也 可 以 重 置 访问 次 数 ， 并 为 优惠 券 集合 创建 一 个 新 的 空 集 。 
4.7.3 工作 原理 


由 于 coupon_collector () 函数 是 一 个 生成 器 ， 因 此 需要 通过 从 结果 中 创建 一 个 列表 对 象 来 捕 
获 数据 。 使 用 coupon_collector () 函数 的 方法 如 下 所 示 : 









































from statistics import mean 

expected time = float (expected(n)) 

data = samples (100, arrivall() 

wait_times = list(coupon collector(n, data)) 
average_ time = mean (wait_times) 


我 们 计算 了 所 有 n 个 客户 到 访 的 预期 次 数 , 使 用 samples (100,arrivall () ) 作 为 一 个 模拟 , 创建 
了 具有 一 个 访问 序列 的 变量 aata。 在 现实 生活 中 ， 我 们 会 分 析 销 售 收 据 来 收集 这 个 访问 序列 。 

我 们 将 优惠 券 收集 测试 应 用 于 数据 ， 最 终 产生 了 一 个 值 序列 ， 显 示 了 有 多 少 客户 到 访 才能 创建 一 
整套 优惠 券 或 客户 ID 。 该 计数 序列 应 当 接 近 预 期 的 访问 次 数 。 我 们 已 将 此 序列 赋值 给 变量 
wait_times， 因 为 已 经 测量 了 在 看 到 样本 集中 的 所 有 客户 之 前 需要 等 待 的 时 间 。 

我 们 可 以 轻松 地 比较 实际 数据 和 预期 数据 。 前 面 展 示 的 arrival1 () 函数 产生 了 与 预期 值 相 当 接 
近 的 平均 值 。 由 于 输入 数据 是 随机 的 ， 因 此 模拟 值 不 会 精确 匹配 期 望 值 。 

优惠 券 收集 测试 依赖 于 收集 一 个 优惠 券 的 集 。 在 这 种 情况 下 ， 术 语 集 最 能 代表 数据 的 精确 数学 


形式 。 
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可 以 手动 创建 一 个 


>>> 
>>> 
>>> 


{1} 


定 的 元 素 要 么 是 一 个 集 的 成 员 , 要 么 不 是 。 我 们 不 能 把 一 个 元 素 多 次 添加 到 同一 个 集中 。 例如 ， 
并 向 其 中 添加 一 个 元 素 。 


collection = set() 
collection.add(1) 
collection 




















漂 








4 尝试 再 次 添加 该 元 素 时 ， 集 的 值 不 会 改变 。 


>>> 
>>> 
{1} 


>>> 





collection.add(1) 
collection 


1 in collection 





集 是 优惠 券 收集 测试 的 完美 数据 表示 。 





请 注意 ，ada () 方 法 不 返回 值 。 它 更 改 集 对 象 ， 类 似 于 列表 方法 的 工作 方式 。 通 常 ， 更 改 集合 的 
方法 不 会 返回 值 。 唯 一 的 例外 是 pop () 方 法 ， 该 方法 更 改 集 对 象 并 返回 被 删除 的 值 。 


4.7.4 





























补充 知识 


向 集 添 加 元 素 的 方法 有 很 多 种 。 








滁 


>>> 
{1} 
>>> 
>>> 
{1, 
>>> 
{1} 











口 使 用 aga () 方 法 。 它 适用 于 添加 单个 元 素 。 

口 使 用 union() 方 法 。 就 像 一 个 运算 符 ， 它 创建 一 个 新 的 结果 外 
口 使 用 | 并 集运 算 符 计算 两 个 集 的 并 集 。 

口 使 用 update () 方 法 用 一 个 集中 的 元 素 更 新 另 一 个 
对 于 以 上 大 多 数 方法 ， 需 要 根据 待 添加 的 元 素 创建 一 个 单 例 集 。 通 过 把 单个 元 素 转换 为 一 个 单 例 
将 单个 元 素 3 添加 到 一 个 集中 的 示例 如 下 : 

















不 会 更 改 任何 一 个 操作 多 





Cy 
Cy 
[e] 











[uy 











。 这 种 方法 会 更 改 集 ， 并 且 不 返回 值 。 























Collection 


item = 3 

collection.union( {item} ) 
3} 

collection 

















本 例 根据 item 变量 的 值 创建 了 一 个 单 例 集 {item}。 然 后 ,使 用 union () 方 法 计算 一 个 新 集 一 一 
collection 和 {item)}) 的 并 集 。 

请 注意 ，union () 方 法 返回 一 个 结果 对 象 ， 并 保持 原始 collection 集 不 变 。 我 们 需要 使 用 
collection = collection.union({item)) 来 更 新 collection 对 象 。 


男 一 种 方法 如 下 ,使 用 并 集运 算 符 | : 


>>> 
>>> 
{1, 


ti 




















collection = collection | {item} 
collection 
3} 











该 示例 类 似 于 通用 的 数学 标记 {1,3} U {3} = {1,3}。 
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还 可 以 使 用 update() 方 法 : 


>>> collection.update( {4} ) 
>>> collection 
{1, 3, 4} 


update 方法 将 更 改 集 对 象 。 因 为 更 改 了 集 ， 所 以 不 返回 值 。 
Python 有 大 量 的 集合 运算 符 。 在 复杂 表达 式 中 常用 的 集合 运算 符 如 下 。 
口 |， 并 集 ， 经 常 排版 为 4UB 。 

口 <， 交 集 ， 经常 排 版 为 4 门 B 。 

口 ^， 对 称 差 ， 经 常 排 版 为 4A B。 

口 -， 差 集 ， 经 常 排版 为 4-B。 





















































4.7.5 延伸 阅读 
口 4.8 节 将 介绍 如 何 通过 移 除 或 替换 元 素来 更 新 集 。 


4.8 从 集中 移 除 元 素 


Python 提供 了 多 种 从 集中 移 除 元 素 的 方法 。 我 们 可 以 使 用 remove () 方 法 移 除 特定 的 元 素 ， 也 可 


以 使 用 pop ( ) 方 法 移 除 任意 元 素 。 
此 外 ， 还 可 以 使 用 交集 、 差 集 和 对 称 差 运算 符 &、- 和 “^ 来 获得 一 个 新 集 。 这 些 运算 将 产生 一 个 新 


集 ， 新 集 是 给 定 输入 集 的 子 集 。 
4.8.1 准备 工作 
我 们 的 日 志文 件 中 行 的 格式 有 时 可 能 复杂 多 样 。 下 面 是 一 个 复杂 日 志 的 片段 


TY 


remove () 、pop () 和 差 集 



































外 















































>>> log = 
[2016-03-05T09:29:31-05:00] INFO: Processing ruby block[print IP] action run 


(@recipe files::/home/slott/ch4/deploy.rb line 9) 
[2016-03-05T09:29:31-05:00] INFO: Installed IP: 111.222.111.222 
[2016-03-05T09:29:31-05:00] INFO: ruby block[print IP] called 


- execute the ruby block print IP 
[2016-03-05T09:29:31-05:00] INFO: Chef Run complete in 23.233811181 seconds 


. Running handlers: 
。 [2016-03-05T09:29:31-05:00] INFO: Running report handlers 
. Running handlers complete 
.。 [2016-03-05T09:29:31-05:00] INFO: Report handlers complete 
. Chef Client finished, 2/2 resources updated in 29.233811181 seconds 


[|] 





我 们 需要 在 日 志 中 找到 类 似 IP: 111.222.111.222 的 行 。 实 现 方 法 如 下 所 示 : 


>>> import re 
>>> pattern = re.compile(r"IP: \d+\.\d+\.\d+\.\d+") 


4.8 从 集中 移 除 元 素 
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>>> matches = Set( pattern.findall(log) ) 
>>> matches 
{'IP: 111.222.111.222'} 


比较 大 的 日 志文 件 的 问题 在 于 ,只 有 一 些 目 标 行 有 真正 的 信息 ， 这 些 行 与 看 起 来 相似 的 行 混合 在 
一 起 。 我 们 也 会 找到 类 似 IP: 1.2.3.4 的 行 , 但 是 这 是 不 相关 的 输出 。 实 际 上 ， 我 们 想 忽 略 这 些 不 
相关 的 行 。 

对 于 这 种 情况 ， 交 集 ( set intersection ) 和 差 集 ( set subtraction ) 是 非常 有 帮助 的 。 


4.8.2 ”实战 演练 
(1) 创建 一 个 需要 忽略 的 元 素 的 集 。 


>>> to be ignored = {'IP: 0.0.0.0', 'IP:; 1.2.3.4'} 


(2) 收集 日 志 的 所 有 条 目 。 如 前 面 所 示 ， 本 例 将 使 用 re 模块。 假设 数据 包括 正确 的 地 址 以 及 日 志 
其 他 部 分 的 虚拟 地 址 和 占 位 符 地 址 。 


>>> matches = {'IP: 111.222.111.222', 'IP: 1.2.3.4'} 


(3) 使 用 差 集 的 形式 从 匹配 的 集中 删除 元 素 ， 示 例如 下 。 
>>> matches - to be ignored 

CRs: LL 

>>> matches.difference(to be ignored) 

{TEs Tile222011ile2227 


请 注意 ， 这 两 个 运算 符 都 返回 新 集 作为 结果 。 这 两 者 都 不 会 更 改 底层 的 集 对 象 。 
这 些 运算 符 的 示例 如 下 : 
>>> Valid_ matches = matches - to be ignored 


>>> Valid matches 
{'IP: 111.222.111.222'} 











































































































生成 的 集 将 被 赋 给 一 个 新 的 变量 valiq_matches， 以 便 可 以 对 这 个 新 集 进行 所 需 的 处 理 。 
在 这 种 情况 下， 如果 元 素 不 在 集中 ， 那 么 不 会 抛 出 KeyError 异常 。 


4.8.3 工作 原理 


集 对 象 只 跟踪 成 员 资格 。 元 素 要 么 在 集中 ,要么 不 在 集中 。 我 们 指定 要 移 除 的 元 素 。 移 除 元 素 不 
依赖 于 索引 位 置 或 键 值 。 


因为 可 以 使 用 集合 运算 符 ， 所 以 可 以 从 目标 集中 移 除 一 个 集 的 任意 元 素 。 我 们 不 需要 单独 处 理 这 
些 元 素 。 


4.8.4 补充 知识 


从 集中 移 除 元 素 的 方法 有 很 多 。 
口 本 例 使 用 了 aifference () 方 法 和 -运算 符 。difference () 方 法 的 行为 类 似 于 一 个 运算 符 ， 
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并 创建 一 个 新 的 级 

口 可 以 使 用 aifference_upaate () 方 法 。 该 方法 将 原 位 更 改 集 。 它 也 没有 返回 值 。 

口 可 以 使 用 *emove () 方 法 移 除 单个 元 素 。 

口 也 可 以 使 用 pop () 方 法 移 除 任 意 元 素 。 这 种 方法 不 太 适 用 于 这 个 例子 ， 因 为 我 们 无 法 控制 哪 
个 元 素 被 弹出 。 

difference_update() 方 法 的 示例 如 下 : 


Cy 
[e] 

































































>>> valid matches = matches.copy() 

>>> valid matches.difference update( to be ignored ) 
>>> valid matches 

{'IP: 111.222.111.222'} 


首先 ， 我们 创建 了 原始 matches 集 的 副本 ， 把 新 集 赋 值 给 了 valiqd_matches 集 。 然 后 ， 应 用 
difference_update() 方 法 从 该 集合 中 移 除 不 需要 的 元 素 。 
由 于 集 已 被 更 改 ， 因 此 不 会 返回 任何 值 。 此 外 ， 由 于 该 集 是 一 个 副本 ， 因 此 不 会 修改 原始 的 



















































































matches 集 。 
remove () 方 法 的 使 用 方法 如 下 所 示 。 请 注意 ， 如 果 集 中 不 存在 该 元 素 , 那么 remove () 方 法 将 抛 
出 异常 。 


>>> valid matches = matches.copy() 
>>> for item in to be ignored: 
if item in valiqd matches: 
和 valid matches.remove (item) 
>>> valid matches 
{'IP: 111.222.111.222'} 


在 尝试 移 除 元 素 之 前 , 我们 测试 了 该 元 素 是 否 在 valig_matches 集中 。 这 是 避免 引发 keyError 
异常 的 一 种 方法 。 另 一 种 方法 是 使 用 try :语句 静默 异常 。 

pop () 方 法 可 以 移 除 任意 项 ， 它 将 更 改 该 集 并 返回 被 移 除 的 元 素 。 如 果 尝 试 从 一 个 空 集中 弹出 元 
素 ， 那 么 将 抛 出 KeyError 异常 。 
























































4.8.5 延伸 阅读 


口 47 节 介绍 了 创建 集 的 其 他 方法 。 


4.9 ”创建 字典 一 一 插入 和 更 新 


字典 是 一 种 Python 映射 。 内 置 类 型 dict 类 提供 了 许多 常见 功能 。collections 模块 定义 了 这 
些 功 能 的 一 些 常见 变 体 。 

4.2 市 指出 ， 当 需要 将 键 映射 到 给 定 值 时 ， 应 当 使 用 字典 。 例 如 ， 我 们 可 能 希望 把 单词 映射 到 该 
单词 的 长 而 复杂 的 定义 ,或 者 把 值 映射 到 该 值 在 数据 集中 出 现 的 次 数 。 

键 和 计数 型 字典 是 很 常见 的 。 我 们 将 通过 一 个 详细 的 实例 来 说 明 初 始 化 字典 并 更 新 计数 器 的 
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方法 。 





访问 之 前 需要 多 少 次 访问 。 
4.9.1 准备 工作 


本 实例 将 创建 一 个 直方 图 来 说 明 每 个 客户 的 访问 次 数 。 为 了 创建 一 些 有 趣 的 数据 ， 本 实例 将 修改 
另 一 个 实例 中 使 用 的 样本 生成 器 。 

4.7 市 使 用 了 一 个 简单 的 均匀 随机 数 生成 器 来 选择 客户 的 序列 。 本 实例 将 使 用 男 一 种 选择 客户 的 
方法 ， 生 成 具有 不 同 分 布 的 随机 数 。 


>>> def arrival2 (n=8): 
农学 ` 必 
while True: 
step = random.choice([-1,0,+1]) 
P += step 
yield abs(P) % n 


该 方法 使 用 随机 游 走 (random walk ) 技术 来 生成 下 一 个 客户 的 ID 号 码 。 从 0 开始 ， 然 后 从 三 个 
选择 中 选择 一 个 。 这 种 方法 可 以 使 用 相同 的 客户 编号 或 者 两 个 相 邻 客户 编号 中 的 一 个 。 使 用 表达 式 
abs (p) % n 可 以 计算 任意 莹 数值 ， 并 将 数字 p 映射 到 范围 0< p<n。 

模拟 客户 到 达 情 况 的 数据 生成 工具 如 下 所 示 : 

>>> import random 

>>> from ch04_r06 import samples, arrival2 

>>> random.seed(1) 


>>> list( samples(10, arrival2(8)) ) 
bs “Ot Ly 2 2 2 yd 


该 示例 说 明了 arrival2 () 函数 如 何 模拟 倾向 聚集 在 客户 0 的 起 始 值 的 客户 。 如 果 对 该 数据 使 用 
4.7 届 中 的 优惠 券 收集 测试 , 那么 该 样本 数据 将 不 能 通过 测试 。 大 量 的 来 访 次 数 意 味 着 , 在 收集 所 有 8 
个 不 同 的 客户 之 前 ， 我 们 必须 看 到 非常 多 的 客户 。 
直方 图 对 每 个 客户 的 出 现 次 数 计数 ， 我 们 将 使 用 字典 把 客户 ID 映射 到 客户 出 现 的 次 数 。 


4.9.2 ”实战 演练 


(D 使 用 {} 创建 一 个 空 字典 , 也 可 以 使 用 aict () 来 创建 。 由 于 我 们 要 创建 一 个 直方 图 来 计算 每 个 
客户 的 到 达 次 数 ， 因 此 把 字典 命名 为 histogramo 

histogram = {} 

(2) 对 于 每 个 客户 编号 ， 如 果 是 新 客户 ， 那 么 添加 一 个 空 列表 到 字典 。 可 以 用 if 语句 或 者 字典 的 
setdefault () 方 法 来 实现 。 我 们 将 首先 演示 if 语句 版 本 ， 稍 后 演示 setdefault () 优化 版 本 。 

(3) 增加 字典 中 的 值 。 

计算 字典 中 客户 出 现 次 数 的 循环 如 下 所 示 。 它 创建 并 更 新 元 素 。 
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for customer in source: 
if customer not in histogram: 
histogram[customer]= 0 
histogram[customer] += 1 


循环 结束 后 ， 我 们 将 得 到 每 个 客户 的 模拟 访问 计数 。 
我 们 可 以 把 计数 转换 为 条 形 图 来 比较 频率 , 还 可 以 计算 一 些 包括 平均 值 和 标准 差 的 基本 的 描述 性 
统计 数据 ， 来 查看 是 否 有 客户 出 现 的 次 数 过 多 或 过 少 。 








4.9.3 工作 原理 


字典 的 核心 功能 是 从 不 可 变 值 到 任何 类 型 对 象 的 映射 。 本 实例 使 用 了 一 个 不 可 变 的 数字 作为 键 ， 
另 一 个 数字 作为 值 。 在 计数 的 同时 ， 替 换 了 与 键 相 关联 的 值 。 

以 下 写法 看 起 来 有 些 不 太 常 用 : 

histogram[customer] += 1 
或 者 写 为 : 

histogram[customer] = histogram[customer] + 1 

仔细 思考 字典 中 被 葡 换 的 值 。 当 编写 一 个 类 似 histogram[customer] + 1 的 表达 式 时 ， 我 们 
从 另外 两 个 整数 对 象 计算 得 到 了 一 个 新 的 整数 对 象 。 这 个 新 对 象 替 换 了 字典 中 的 旧 值 。 

字典 的 键 对 象 不 可 变 ， 这 一 点 极其 重要 。 不 能 使 用 列表 、 集 或 者 字典 作为 一 个 字典 映射 的 键 ， 但 
是 可 以 把 列表 转换 为 不 可 变 的 元 组 或 者 把 集 转换 为 frozenset ， 这 样 就 可 以 使 用 这 些 更 复杂 的 对 象 
作为 键 。 













































































4.9.4 补充 知识 


我 们 不 必 使 用 if 语句 来 添加 缺失 的 键 。 可 以 使 用 字典 的 setaefault () 方 法 。 修 改 后 的 循环 如 
下 所 示 : 


histogram = {} 

for customer in source: 
histogram.setdefault (customer, 0) 
histogram[customer] += 1 


如 果 customer 键 不 存在 , 则 提供 默认 值 。 如 果 键 确实 存在 , 则 setaefault () 方 法 不 执行 任何 
操作 。 

collections 模块 提供 了 许多 可 以 替代 默认 aict 映射 的 其 他 映射 。 
D aefaultdict: 这 种 集合 可 以 让 我 们 不 必 显 式 地 编写 本 实例 中 的 第 二 个 步骤。 我 们 提供 一 个 
初始 化 函数 作为 创建 defaultaict 的 一 部 分 。 稍 后 将 演示 这 种 集合 的 使 用 方法 。 
口 ordqereaDict: 这 种 集合 按照 键 最 初创 建 的 顺序 保存 键 。4.11 节 将 会 对 此 做 详细 介绍 。 
口 counter: 这 种 集合 在 创建 时 执行 key-and-count 算法 。 稍 后 也 会 演示 这 种 集合 。 
使 用 aefaultdict 类 的 版 本 如 下 所 示 : 
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from collections import defaultdict 
def summarize_3 (source): 
histogram = defaultdict (int) 
for item in source: 
histogram[item] += 1 
return histogram 


我 们 创建 了 一 个 aefaultdaict 实例 ， 它 将 使 用 int () 函数 初始 化 任何 未 知 键 的 值 。 我 们 将 int 
函数 对 象 提供 给 aefaultaict 构造 函数 。aefaultaict 将 执行 给 定 函 数 对 象 来 创建 默认 值 。 

这 使 我 们 能 够 简单 地 使 用 histogram[item] += 1。 如 果 item 属性 的 值 在 字典 中 ， 则 它 将 被 
递增 。 如 果 item 属性 的 值 不 在 字典 中 ， 则 会 执行 int 函数 ， 结 果 将 成 为 默认 值 。 

上 述 示例 的 另 一 种 解决 方法 是 创建 一 个 counter 对 象 。 需 要 导入 counter 类 ， 以 便 从 原始 数据 
中 构建 Counter 对 象 。 


>>> from collections import Counter 

>>> def summarize 4(source): 
histogram = Counter(source) 
return histogram 


当 我 们 从 数据 源 创建 一 个 counter 对 象 时 ,Counter 类 将 扫描 数据 并 计算 不 同 元 素 的 出 现 次 数 ， 
该 类 实现 了 整个 实例 。 
结果 如 下 所 示 : 


>>> import random 

>>> from pprint import pprint 

>>> random.seed(1) 

>>> histogram = summarize 4(samples(1000, arrival2(8))) 

>>> pprint (histogram) 

Counter({1: 150, 0: 130, 2: 129, 4: 128, 5: 127, 6: 118, 3: 117, 7: 101}) 


请 注意 ，Counter 对 象 以 计数 值 的 降序 显示 字典 的 元 素 。OrderedDict 对 象 将 以 键 创建 的 顺序 
来 显示 字典 的 元 素 。 字 典 元 素 是 没有 固定 顺序 的 。 
对 键 强制 排序 的 方法 如 下 所 示 : 


>>> for key in sorted(histogram): 
print (key, histogram[key]) 
























































130 
150 
129 
117 
128 
127 
118 
101 


amwhb 上 收口， 


4.9.5 延伸 阅读 


口 4.10 市 将 介绍 如 何 通 过 移 除 元 素来 修改 字典 。 
口 4.11 节 将 介绍 如 何 控制 字典 中 键 的 顺序 。 
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4.10 ”从 字典 中 移 除 元 素 一 一 pop () 方 法 和 del 语句 


关联 存储 ( associative store ) 是 字典 的 一 种 常见 用 途 ， 字 典 可 以 保持 键 和 值 对 象 之 间 的 关联 。 这 
意味 着 可 以 对 字典 中 的 元 素 进行 任何 CRUD 操作 。 
口 创建 (create ) 新 的 键 值 对 
口 检索 (retrieve ) 与 键 关联 的 值 
口 更 新 ( update ) 与 键 关 联 的 值 
口 删除 (delete ) 字典 中 的 键 和 值 
字典 有 两 种 常见 的 变 体 。 
口 内 存 中 (in-memory ) 的 字典 aict 以 及 collections 模块 中 的 其 他 变 体 。 这 些 集合 仅 在 程 
序 运行 时 才 存 在 。 
口 shelve 和 dbm 模块 中 的 持久 性 存储 。 数 据 集合 是 文件 系统 中 的 持久 文件 。 
这 些 变 体 非 常 相 似 , shelf .shelf 和 dict 对 象 之 间 的 区 别 很 小 。 这 允许 我 们 尝试 在 不 对 程序 进 
行 剧烈 更 改 的 情况 下 ， 把 一 个 dict 切换 为 一 个 shelf。 
服务 器 进程 通常 有 多 个 并 发 会 话 。 创 建 会 话 时 ， 可 以 将 它们 放 入 aict 或 shelf。 会 话 退 出 时 ， 
元 素 被 删除 或 存档 。 
本 实例 将 模拟 处 理 多 个 请 求 的 服务 。 我 们 将 定义 一 个 在 模拟 环境 中 以 单线 程 工作 的 服务 ， 避 免考 
虑 并 发 和 多 进程 。 


4.10.1 准备 工作 


在 赌场 游戏 Craps 中 ， 玩 家 可 以 经 常 在 游戏 过 程 中 创建 和 移 除 多 个 赌注 。 虽 然 Craps 的 规则 可 能 
非常 复杂 ， 但 核心 概念 主要 包括 玩家 可 能 会 做 出 的 4 种 投注 。 
口 过 线 (pass line ) 注 : 游戏 的 初始 赌注 。 
口 过 线 赔 率 ( pass line odds ) 注 : 这 种 赌注 没有 明确 地 标识 在 赌 桌 上 ， 但 它 的 确 是 一 种 赌注 。 这 
种 赌注 的 赔 率 不 同 于 过 线 注 ， 并 且 具 有 某 些 统计 学 优势 。" 它 也 可 以 被 去 除 。 
口 来 线 (come line ) 注 : 这 种 赌注 可 以 在 游戏 过 程 中 投注 。 
口 来 线 赔 率 ( come line odds ) 注 : 这 种 赌注 同样 可 以 在 游戏 过 程 中 投注 ， 也 可 以 取 回 。 

模拟 游戏 和 玩家 是 了 解 所 有 这 些 投注 选择 的 最 佳 方式 。 游 戏 需 要 跟踪 玩家 的 所 有 投注 ,我们 可 以 
通过 字典 实现 赌注 的 插入 、 去 除 ， 或 者 模拟 用 户 取 回 赌注 、 终 止 游戏 。 

为 了 更 专注 于 如 何 正确 使 用 字典 ,我 们 将 简化 游戏 的 模拟 部 分 。 本 实例 最 好 通过 类 定义 实现 ， 这 样 
我 们 就 可 以 正确 地 将 赌注 和 游戏 规则 从 玩家 规则 中 分 离 出 来 。 有 关 类 设计 的 更 多 信息 ， 请 参阅 第 6 章 。 

















































































































































































































4.10.2 ”实战 演练 
(1) 创建 一 个 总 体 字典 对 象 。 

















@ 过 线 注 赔 率 仅 为 1 : 1。 一 一 译 者 注 
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working_bets = {} 


(2) 定义 我 们 插入 字典 的 每 个 对 象 的 键 和 值 。 例 如 , 键 可 能 是 下 注 的 描述 : come 、pass、come odds 
或 pass odqdqs ， 值 可 能 是 下 注 金 额 。 下 注 金额 通常 避免 使 用 货币 计量 ， 而 是 以 赌 桌 上 最 低 的 下 注 为 
单位 计算 。 通 常 是 简单 的 整数 的 倍数 ， 最 常见 的 是 用 整数 值 1 来 表示 最 小 的 下 注 。 





























(3) 投注 时 输入 值 。 
Working_bets [pet_name] = bet_amount 
具体 的 示例 如 working_bets["pass"] = 1。 


(4) 赌注 付 清 或 取消 时 ， 移 除 值 。 可 以 使 用 ael 语句 或 者 字典 的 pop () 方 法 。 

del working_ bets ['come odds'] 

如 果 不 存在 该 键 ， 则 会 抛 出 KeyError 异常 。 

pop () 方 法 改变 字典 并 返回 与 该 键 相 关联 的 值 。 如 果 键 不 存在 ， 则 会 抛 出 KeyError 异常 。 
amount = working_ bets.pop('come odds') 


实际 上 ，pop () 方 法 可 以 给 定 一 个 默认 值 。 如 果 键 不 存在 ， 则 不 会 抛 出 异常 ， 而 是 返回 默认 值 。 


4.10.3 工作 原理 


因为 字典 是 可 变 对 象 ， 所 以 可 以 从 字典 中 移 除 键 。 这 将 同时 删除 键 以 及 与 该 键 相 关联 的 值 对 象 。 
如 果 试 图 删除 不 存在 的 键 ， 则 会 抛 出 KeyError 异常 。 
可 以 用 如 下 语句 替换 字典 中 的 对 象 : 


working_bets["come"] = 1 
working_bets["come"] = None 


键 come 仍然 在 字典 中 ， 原 来 的 值 1 将 被 替换 为 新 的 值 None。 这 种 操作 与 删除 元 素 不 同 。 









































4.10.4 ”补充 知识 


我 们 只 能 删除 字典 的 键 。 如 前 所 述 , 可 以 将 值 设 置 为 None 来 删除 值 , 并 把 对 应 的 键 留 在 字典 中 。 
在 for 语句 中 使 用 字典 时 ， 目 标 变量 将 被 赋值 为 字典 的 键 值 。 例 如 : 


for bet_ name in working bets: 
print (bet_name, working_bets[bet_ name]) 


本 例 将 打印 所 有 的 键 值 bet_name 以 及 与 working_bets 字典 中 的 赌注 相关 联 的 下 注 金额 。 


4.10.5 延伸 阅读 


口 4.9 节 研 究 了 如 何 创 建 字典 以 及 如 何 为 字典 添加 键 和 值 。 
口 4.11 节 将 研究 如 何 控制 字典 中 键 的 顺序 。 
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4.11 控制 字典 键 的 顺序 




















4.9 节 介 绍 了 创建 字典 对 象 的 基础 知识 。 在 许多 情况 下 ， 我们 会 把 元 素 放 入 


独 获取 元 素 ， 几 乎 就 没有 





考虑 过 为 键 排序 的 问题 。 








在 某 些 情况 下 ， 我 们 





























这 样 消息 在 调试 日 志 中 显 


























们 几乎 总 是 希望 键 保持 台 


4.11.1 准备 工作 


用 Web 服务 时 ， 消 息 通 常 


再 如 , 在 使 用 csv 模块 读 取 数据 时 ,电子 表格 
































示 时 ， 就 更 容易 理解 了 











， 并 从 字典 中 单 





可 能 想 显 示 字 典 的 内 容 ， 这 时 通常 会 希望 键 按照 某 种 顺序 排列 。 例 如 ， 在 使 
是 以 JSON 格式 编码 的 字典 。 在 许多 情况 下， 我们 希望 键 保 持 特定 的 顺序 ， 























全 定 的 顺序 ， 以 便 字典 遵循 源 文件 的 结构 。 








FP 的 每 一 行 都 可 以 表示 为 字典 。 在 这 种 情况 下 , 我 





字典 是 电子 表格 行 的 良好 模型 ， 在 电子 表格 具有 列 标题 的 标题 行 时 ， 字 典 尤 其 适用 。 假 设 我 们 在 
电子 表格 中 收集 了 一 些 数据 ， 如 下 所 示 。 



































final least most 
5 0 6 
-3 一 4 0 
-1 -3 1 
3 0 4 
该 表格 显示 了 玩家 最 终 的 收入 、 玩家 的 最 低 金 额 以 及 玩家 的 最 高 金额 。 可 以 使 用 csv 模块 读 取 这 


些 数 据 并 做 进一步 的 分 析 





[e] 


>>> from pathlib import Path 


>>> import csv 


>>> data path = Path('code/craps.csv') 

>>> with data path.open() as data file: 
reader = csv.DictReader (data file) 

。 data = list(reader) 

>>> for row in data: 


print (row) 
'most': '6', 'least': '0', 'final': '5'} 














么 办 ? 


4.11.2 ”实战 演练 
强制 对 字典 的 键 排序 


















































的 方法 有 两 种 。 





口 创建 oraereqDict : 按照 键 创建 的 顺序 排列 。 


{ 

{'most': '0' 'Jleast': '-4', 'final': '-3'} 

{'most': 1, "Least': '-3', 'final': '-1'} 

{'most': '4', 'least': '0', 'final': '3'} 

虽然 每 人 典 , 但 是 行 中 键 的 顺序 与 原始 .csv 文件 中 键 的 顺序 不 一 致 。 


4， 
为 什么 会 这 样 呢 ? 默认 字典 结构 aict 不 保证 键 的 顺序 。 如 果 想 要 按照 特定 的 顺序 显示 键 ， 该 怎 
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口 对 键 使 用 sorted () : 按照 排序 顺序 排列 。 

大 多 数 情况 下 ， | orderedDict 替代 aict () 或 {} 来 创建 一 个 空 字典 。 这 将 允许 
我 们 以 所 需 的 顺序 创建 键 。 

然而 ， 在 某 些 情况 下 ， 不 能 轻易 地 用 一 个 orderedDict 实例 替换 ai ct 实例 。 选 择 这 个 例子 就 
是 因为 我 们 不 能 简单 地 替换 由 csv 模块 创建 的 aict 类 。 

强制 行 的 dict 键 按照 原始 .csv 文件 中 列 的 顺序 排列 ， 方 法 如 下 。 

(1) 获取 键 的 首选 顺序 。 对 于 DijctReader，reader 对 象 的 fieldnames 属性 包含 正确 的 顺序 



































信息 。 
(2) 使 用 生成 器 表达 式 按 顺序 创建 字段 。 代 码 如 下 所 示 。 


((name, raw_row[name]) for name in reader.fieldnames) 


(3) 由 生成 器 创建 一 个 ordereqdDict。 整 个 过 程 如 下 所 示 。 


>>> from collections import OrderedDict 
>>> with data path.open() as data file: 
reader = csv.DictReader (data file) 
for raw row in reader: 
column sequence = ((name, raw_ row[name]) 
for name in reader.fieldnames) 
good row = OrderedDict (column sequence) 
print (good row) 
orderedDict ([(" final', '5'), ('least', '0'), ('most', '6')]) 
OrderedDict([('final', '-3'), ('least', '-4'), ('most', '0')]) 
人 sa 人 na '-1'), ('least', '-3'), ('most', '1')]) 
OrderedDict([('final', '3'), ('least', '0'), ('most', '4')]) 
该 示例 构建 了 键 按照 特定 顺序 排列 的 字典 。 
作为 优化 ， 可 以 将 两 个 步骤 组 合成 一 个 步骤 。 


OrderedDict((name, raw_row[lname]) for name in reader.fieldnames) 


该 示例 将 构建 有 序 版 本 的 raw_row 对 象 。 


4.11.3 工作 原理 


orgderedDict 类 保持 键 创建 时 的 顺序 。 这 个 类 便于 确保 结构 保持 更 容易 理解 的 顺序 。 

当然 ， 这 种 方法 有 一 定 的 性 能 开销 。 默 认 的 aict 类 为 每 个 键 计算 一 个 散 列 值 ， 散 列 值 用 于 定位 
字典 中 的 一 个 空间 。aict 往往 会 使 用 更 多 的 内 存 ， 但 执行 速度 非常 快 。 

orderedDict 使 用 额外 的 存储 空间 来 保持 键 的 顺序 。 当 键 被 创建 时 ， 需 要 一 些 额 外 的 时 间 。 如 果 
算法 侧重 于 键 的 创建 , 那么 执行 速度 可 能 有 所 减缓 。 如 果 设 计 倾向 于 键 的 查找 , 那么 使 用 OrderedDict 
时 不 会 有 太 大 的 变化 。 
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4.11.4 ”补充 知识 
在 某 些 包 中 有 一 些 蔡 代 的 有 序 字典 实现 ， 例 如 pymongo。 
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请 参阅 https://api.mongodb.org/python/current/api/bson/son.html。 

bson.son 模块 包含 一 个 非常 便捷 的 有 序 字 典 类 SON 类 。 该 类 主要 专注 于 Mongo 数据 库 的 需 
求 ， 但 对 其 他 应 用 程序 也 非常 适用 。 
4.11.5 延伸 阅读 


口 4.9 节 讨 论 了 如 何 创建 字典 。 
口 4.10 节 讨 论 了 如 何 通过 删除 元 素来 修改 字典 。 


















































4.12 处理 doctest 示例 中 的 字典 和 集 











本 实例 将 介绍 一 些 关于 正确 编写 测试 的 知识 。 第 11 章 将 全 面 介绍 测试 。 在 涉及 编写 正确 的 测试 
时 ， 本 章 中 的 字典 和 集 数据 结构 都 存在 着 一 定 的 复杂 性 。 

由 于 aict 键 (和 set 成 员 ) 没有 顺序 ， 因 此 测试 结果 也 将 出 现 问题 。 测 试 需要 可 重复 的 结果 ， 
但 是 这 些 数据 结构 没有 办 法 保证 集合 的 顺序 ， 这 可 能 导致 测试 结果 不 符合 我 们 的 预期 。 

假设 测试 预期 的 集 为 ("Poe" ，"E"，"Near"，"A"，"Raven"}。 由 于 集 没 有 确定 的 顺序 ， 因 此 
Python 可 以 以 任意 顺序 显示 该 集 。 


>>> {"Poe", 和 "Near", 二 "Raven"} 
{'E', 'Poe', 'Raven', 'Near', 'A'} 









































这 些 元 素 都 是 相同 的 ， 但 是 Python 的 输出 并 不 相同 。doctest 包 要 求 示例 的 文本 输出 与 Python 
的 REPL 生成 的 输出 完全 相同 。 


如 何 确 定 aoctest 示例 真正 有 效 ? 


4.12.1 准备 工作 
下 面 是 一 个 涉及 set 对 象 的 示例 : 


>>> words = set( 
。 '''Beautiful is better than ugly. 
。 Explicit is better than implicit. 
. Simple is better than complex. 
. Complex is better than complicated. 


... '''.replace('.', ' ').split()) 
>>> words 




















{'complicated', '‘'Simple', 'ugly', 'implicit', 'Beautiful', 
'complex', 'is', 'Explicit', 'better', 'Complex', 'than'} 











该 示例 非常 简单 。 然 而 ， 这 个 示例 每 次 的 处 理 结果 往往 会 不 同 。 实 际 上 ， 在 涉及 安全 的 算法 中 ， 
变化 的 顺序 是 很 重要 的 。 该 问题 被 称 为 散 列 随机 化 〈hash randomization ) 问题 : 当 散 列 值 可 预测 时 ， 
可 能 会 成 为 安全 漏洞 。 

当 使 用 aoctest 模块 时 ， 需 要 完全 一 致 的 示例 。 就 像 我 们 将 在 第 11 章 看 到 的 那样 ，doctest 模 
块 擅长 查找 示例 ， 但 是 并 不 擅长 确保 实际 结果 与 预期 结果 相 匹 配 。 
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和 字典 。 这 两 种 结构 都 是 集合 ， 但 是 由 于 随机 散 列 化 问题 ， 两 者 无 法 保证 


疲 


这 种 问题 主要 局 限于 


键 的 排序 。 
4.12.2 ”实战 演练 























当 需 要 确保 集 或 字典 中 的 元 素 具 有 特定 的 顺序 时 ， 可 以 将 集合 转换 为 有 序 序列 。 

转换 选择 有 两 种 : 

口 将 集 转换 为 有 序 序列 ; 

口 将 字典 转换 为 (key，value) 二 元 组 的 有 序 序列 。 

这 两 个 实例 非常 相似 。 强 制 将 集 转换 为 规范 化 结构 的 方法 如 下 所 示 : 

>>> list(sorted(words)) 4 
['Beautiful', 'Complex', 'Explicit', 'Simple', 'better', 

'Ccomplex', 'complicated', 'implicit', 'is', 'than', 'ugly'] 

对 于 字典 ， 常 用 方法 如 下 所 示 : 

list(sorted(some dictionary.items())) 


这 种 方法 将 字典 中 的 每 个 元 素 提取 为 (key，value) 二 元 组 ， 这 些 二 元 组 将 按键 的 顺序 排列 。 将 
































==3 














最 终 得 到 的 序列 转换 为 列表 ， 以 便 与 预期 结果 进行 比较 。 


4.12.3 工作 原理 





对 于 不 能 强制 排序 的 集合 ， 必 须 找到 一 个 包含 以 下 两 个 特性 的 集合 : 

口 相同 的 内 容 ; 

口 某 种 一 致 的 顺序 。 

Python 的 内 置 结 构 是 以 下 三 种 类 型 的 变 体 : 

口 序列 ; 

口 集 ; 

口 映射 。 

由 于 序列 是 唯一 保证 顺序 的 数据 结构 ,因此 可 以 将 集 和 映射 转换 为 序列 ,事实 证 明 , 使 用 sorted() 

















函数 可 以 轻易 解决 这 个 问题 。 


对 于 集 ， 我 们 将 对 元 素 排 序 。 对 于 映射 ,我们 将 对 (key，value) 二 元 组 排序 。 这 样 就 可 以 确保 





示例 的 输出 符合 预期 。 
4.12.4 延伸 阅读 


第 11 章 将 介绍 另外 几 种 数据 的 测试 : 
口 浮 点 数 ; 

口 日 期 ; 

口 对 象 ID 和 追溯 ; 

口 随机 序列 。 
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这 些 数据 都 需要 放 在 具有 可 预测 输出 的 上 下 文中 ， 以 便 重复 测试 。 集 和 字典 数据 结构 是 本 音 的 主 
题 。 相 关 章节 将 介绍 其 他 变 体 。 


4.13 理解 变量 、 引 用 和 赋值 


变量 是 如 何 工作 的 ? 把 一 个 可 变 对 象 赋值 给 两 个 变量 会 产生 什么 后 果 ? 创建 两 个 共享 一 个 通用 
对 象 引用 的 变量 非常 容易 ， 但 是 当 共 享 对 象 可 变 时 ， 可 能 会 导致 潜在 的 混乱 结果 。 规 则 很 简单 ， 后 果 
通常 也 很 明显 。 

本 实例 专注 于 此 规则 : Python 只 共享 引用 ， 并 不 复制 数据 。 

我 们 需要 了 解 这 个 关于 引用 共享 的 规则 的 实际 意义 。 

本 实例 将 创建 两 个 数据 结构 ， 一 个 可 变 ,一 个 不 可 变 。 虽然 可 以 使 用 两 种 集 做 类 似 的 事情 ,但 是 
我 们 将 使 用 两 种 序列 。 


>>> mutable = [1, 1, 2, 3, 5, 8] 
>>> immutable = (5, 8, 13, 21) 


可 变数 据 结构 是 可 以 更 改 的 ， 也 是 可 以 共享 的 。 不 可 变数 据 结构 也 是 可 以 共享 的 ， 但 是 很 难说 明 
它们 正在 被 共享 。 
由 于 Python 不 提供 简便 的 不 可 变 映 射 ， 因 此 无 法 简便 地 在 本 实例 


4.13.1 ”实战 演练 
(1) 将 各 个 集合 分 别 赋值 给 另外 一 个 变量 。 这 将 创建 另外 两 个 指向 原 有 数据 结构 的 引用 。 


>>> mutable b = mutable 
>>> immutable b = immutable 


我 们 现在 有 两 组 引用 ,一 组 是 两 个 指向 列表 [1，1，2，3，5，8] 的 引用 ， 另 一 组 是 两 个 指向 元 
组 (5，8，13，21) 的 引用 。 
可 以 使 用 is 运算 符 来 验证 我 们 的 结论 ， 只 需 确认 两 个 变量 是 否 引 用 相同 的 底层 对 象 。 


>>> mutable b is mutable 
True 

>>> immutable b is immutable 
True 


(2) 修改 每 组 引用 的 其 中 一 个 引用 。 对 于 可 变数 据 结构 ,可 以 使 用 类 似 appena () 或 aqa() 的 方法 。 

>>> mutable + = [mutable [-2] + mutable [-1]] 

对 于 列表 结构 ，+= 赋 值 实 际 上 是 exteng () 方 法 的 内 部 调用 。 

我 们 也 可 以 对 不 可 变 结构 执行 类 似 操作 。 

>>> immutable += (immutable[-2] + immutable[-1],) 

由 于 元 组 没有 类 似 exteng () 的 方法 ， 因 此 += 将 构建 一 个 新 的 元 组 对 象 ， 并 用 新 对 象 替换 不 可 变 
的 值 。 














































































































使 用 映射 。 
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(3) 查看 对 应 数据 结构 的 另 一 个 引用 。 
>>> mutable _b 

[ly iL Dy 3 :D778%, 3 

>>> mutable is mutable b 

True 

>>> immutable b 

(5, 8, 13, 21) 

>>> immutable 

(5, 8, 13, 21, 34) 


变量 mutable 和 变量 mutable_b 引用 了 相同 的 底层 对 象 。 因此 , 我 们 可 以 使 用 任意 一 个 变量 来 
更 改 对 象 ， 并 查看 男 一 个 变量 的 值 所 反映 的 变化 。 

变量 immutable_b 和 变量 immutable 刚 开 始 的 时 候 引 用 了 同一 个 对 象 。 因 为 该 对 象 不 能 原 位 
更 改 ， 所 以 修改 其 中 一 个 变量 意味 着 把 一 个 新 对 象 赋值 给 该 变量 。 男 一 个 变量 仍然 引用 原始 对 象 。 






































4.13.2 ”工作 原理 


在 Python 中 , 变量 是 附加 到 对 象 的 标签 。 我 们 可 以 把 变量 看 作 色 彩 明 亮 的 便签 , 暂时 把 它们 贴 在 
对 象 上 。 
变量 是 对 底层 对 象 的 引用 。 把 对 象 赋 给 变量 ， 就 相当 于 为 底层 对 象 的 引用 起 了 一 个 名 字 。 在 表达 

式 中 使 用 变量 时 ，Python 将 会 找到 该 变量 引用 的 对 象 。 

对 于 可 变 对 象 ， 对 象 的 方法 可 以 修改 对 象 的 状态 。 引 用 对 象 的 所 有 变量 将 反映 状态 变化 ， 这 是 

为 变量 只 是 一 个 引用 ， 而 不 是 对 象 完整 的 副本 。 

在 赋值 语句 中 使 用 变量 时 ， 可 能 有 两 种 操作 。 

口 对 于 可 变 对 象 ， 为 适当 的 赋值 运算 符 提供 定义 ， 比 如 +=， 赋 值 运算 符 将 转换 为 特殊 方法 。 在 

本 例 中 ， 特 殊 方法 为 “iadqad__。 特 殊 方法 会 改变 对 象 的 内 部 状态 。 

口 对 于 不 可 变 对 象 ， 不 提供 类 似 += 的 赋值 运算 符 定义 ，+= 将 转换 为 = 和 +。 一 个 新 的 对 象 由 + 运 
算 符 构建 ， 变 量 名 被 附加 到 这 个 新 的 对 象 上 。 之 前 引用 原始 对 象 的 其 他 变量 不 受 影响 ， 它 们 
将 继续 引用 旧 的 对 象 。 

Python 跟踪 对 象 的 引用 次 数 。 当 引用 次 数 为 零 时 ,任何 地 方 都 不 再 使 用 该 对 象 ， 那 么 就 可 以 从 内 

存 中 删除 该 对 象 。 



































四 



















































































4.13.3 ”补充 知识 


像 C++ 或 Java 这 样 的 语言 除了 对 象 之 外 ， 还 有 基本 数据 类 型 。 在 这 些 语言 中 ，+= 语 句 利用 硬件 
指令 或 Java 虚拟 机 的 特性 来 调整 基本 数据 类 型 的 值 。 

Python 没有 这 种 优化 。 数 字 是 不 可 变 的 对 象 。 当 我 们 执行 如 下 操作 时 , 不 会 调整 对 象 355 的 内 部 
状态 。 


>>> a = 355 
>>> a+ = 113 
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上 述 示例 不 依赖 于 内 部 的 __iaaq__ 特殊 方法 ， 它 的 行为 与 以 下 语句 相同 。 

>>> a=a+ 113 

执行 表达 式 a + 113， 并 创建 一 个 新 的 不 可 变 的 整数 对 象 。 这 个 新 对 象 被 赋 给 了 标签 a， 以 前 赋 
全 a 的 旧 值 将 被 蔡 换 。 














4.13.4 延伸 阅读 


口 4.14 节 将 介绍 复制 可 变 结 构 的 方法 。 


4.14 ”制作 对 象 的 浅 副 本 和 深 副 本 
本 章 其 他 实例 讨论 了 赋值 语句 如 何 共享 对 象 的 引用 。Python 通常 不 复制 对 象 。 例 如 : 

























































































现在 有 两 个 指向 相同 底层 对 象 的 引用 。 如 果 p 是 一 个 列表 , 那么 a 和 ob 都 是 指向 相同 的 、 可 变 的 
列表 的 引用 。 

正如 4.13 节 介 绍 的， 改变 变量 a 将 改变 a 和 共同 引用 的 列表 对 象 。 

大 多 数 情况 下 ， 这 a 在 一 些 罕见 的 情况 下 ,我 们 实际 上 希望 从 一 个 原始 
对 象 创建 两 个 独立 的 对 象 。 





当 两 个 变量 引用 相同 的 底层 对 象 时 ， 断 开 连 接 的 方法 有 两 种 : 
口 制作 结构 的 浅 副 本 ( shallow copy ); 
制作 结构 的 深 副本 ( deep copy )。 


4.14.1 准备 工作 


我 们 必须 做 出 特别 的 安排 来 制作 对 象 的 副本 。 前 面 已 经 介绍 了 几 种 相关 的 语法 。 
口 序列 list 和 tuple: 可 以 使 用 表达 式 seauence [:] 复 制 序列 ， 也 可 以 使 用 sequence. 
copy () 制作 一 个 名 为 sequence 的 变量 副本 。 












































口 映射 一 一 dict: 可 以 使 用 mapping.copy () 复 制 一 个 名 为 mapping 的 字典 。 
口 集合 set 和 frozenset: 可 以 使 用 someset .copy () 复 制 一 个 名 为 someset 的 集 。 
这 些 都 是 浅 副本 。 








浅 表示 两 个 集合 包含 对 相同 底层 对 象 的 引用 。 如 果 底 层 对 象 是 不 变 的 数字 或 字符 串 ， 那 么 这 种 区 
别 并 不 重要 。 3 这 些 元 素 只 是 被 简单 地 替换 了 。 



































对 于 a = [1，1，2，3]， 不 能 执行 对 a[0] 的 更 改 。a[0] 中 的 数字 1 没有 内 部 状态 ， 只 能 替换 
该 对 象 。 

但 是 , 对 于 涉及 可 变 对 象 的 集合 , 这 种 方法 会 出 现 问 题 。 首先 创建 一 个 对 象 , 然后 再 创建 一 个 副本 。 

>>> some dict = {'a': [1, 1, 2, 3]} 


>>> another dict = some dict.copy() 
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我 们 必须 制作 一 个 字典 的 浅 副 本 。 两 个 副本 看 起 来 相似 ， ee 
用 一 一 一 个 指向 不 可 变 字 符 串 a 的 共享 引用 和 一 个 指向 可 变 列表 [1 ，3] 的 共享 引用 。 可 以 显 
示 another_dict 的 值 ， 来 查看 其 是 否 与 some_dqict 相同 。 


>>> another dict 
{'a': [1, 1, 2, 3]} 


当 更 新 字典 副本 中 的 共享 列表 时 ， 结 果 如 下 : 


>>> some dict['a'] .append(5) 
>>> another dict 
{'a': [1, 1, 2, 3, 5]} 









































我 们 改变 了 两 个 aict 对 象 (some_dict 和 another_dict ) 之 间 共 享 的 1ist 对 象 。 
可 以 使 用 id () 函数 确认 元 素 是 否 被 共享 。 


>>> id(some dict['a']) == id(another dict['a']) 
True 


因为 这 两 个 ia() 值 是 相同 的 , 所 以 它们 的 底层 对 象 是 相同 的 。some_gdict 和 another_dict 中 
与 键 a 关联 的 值 都 是 同一 个 可 变 列表 ， 也 可 以 使 用 is 运算 符 来 确认 它们 是 否 是 相同 的 对 象 。 
这 种 影响 也 适用 于 包含 其 他 列表 作为 列表 元 素 的 列表 。 


>>> Some list = [[2, 3, 5], [7, 11, 13]] 
>>> another list = some list.copy() 

>>> some list is another list 

False 

>>> some list[0] is another list[0] 

True 
















































































我 们 制作 了 一 个 对 象 的 副本 some_1ist, 并 将 其 赋 给 变量 another_1ist。 顶层 的 1ist 对 象 是 
不 同 的 ， 但 是 这 些 列表 中 的 元 素 是 共享 引用 的 。 示 例 中 使 用 了 is 运算 符 来 表明 每 个 列表 中 的 第 一 个 
元 素 都 是 指向 相同 底层 对 象 的 引用 。 
因为 不 能 创建 一 个 可 变 的 对 象 的 集 ， 所 以 不 需要 考虑 制作 共享 元 素 的 集 的 浅 六 
如 果 想 要 完全 断 开 两 个 副本 的 连接 ， 该 怎么 办 ? 如 何 制作 


4.14.2 “实战 演练 


Python 通常 通过 共享 引用 来 工作 。 共 享 引用 只 是 勉强 地 制作 对 象 的 副本 。 默 认 行 为 是 制作 一 个 浅 
副本 ， 共 享 集合 中 元 素 的 引用 。 制 作 深 副本 的 方法 如 下 。 
(1) 导入 copy 库 。 


>>> import copy 
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本 。 
深 副 本 来 代替 浅 副 本 ? 
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(2) 使 用 copy . deepcopy () 函数 复制 对 象 和 该 对 象 中 包含 的 所 有 可 变 元 素 。 
>>> some dict = {'a': [1, 1, 2, 3]} 
>>> another dict = copy.deepcopy (some dict) 


这 种 方法 将 创建 没有 共享 引用 的 副本 。 修 改 副本 内 部 的 可 变 元 素 不 会 影响 其 他 对 象 。 
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>>> some dict['a'] .append(5) 

>>> some_ dict 

{'a': [1, 1, 2, 3, 5]} 

>>> another dict 

{'a': [1, 1, 2, 3]} 

我 们 更 新 了 some_dict 中 的 一 个 元 素 , 但 是 对 another_dict 中 的 副本 没有 任何 影响 ,使 用 ia() 
函数 可 以 看 出 这 些 对 象 是 不 同 的 。 

>>> id(some dict['a']) == id(another dict['a']) 

False 


由 于 ia() 值 不 同 , 因此 这 些 对 象 是 不 同 的 对 象 。 我 们 也 可 以 使 用 is 运算 符 来 验证 它们 是 不 同 的 
对 象 。 















































4.14.3 ”工作 原理 
制作 浅 副 本 相对 容易 。 可 以 使 用 生成 器 表达 式 编写 自 定 义 版 本 的 算法 。 


>>> Copy_ of 11ist 
>>> copy_of dict 


对 于 列表 ， 新 列表 的 元 素 引 用 源 列 表 中 的 元 素 。 类 似 地 ， 对 于 字典 ， 键 和 值 是 对 源 字典 的 键 和 值 
的 引用 。 
deepcopy () 函数 使 用 递归 算法 来 访问 每 个 可 变 集 合 的 内 容 。 
列表 的 深 副本 概念 算法 如 下 : 























[item for item in some list] 
{key:value for key, value in some dict.items()} 



















































































immutable = (numbers.Number, tuple, str, bytes) 
def deepcopy_list(some list): 
copy = [] 


for item in Some_ list: 
if isinstance(item, immutable): 
copy .append (item) 
else: 
copy .append (deepcopy (item)) 


当然 ,实际 代码 与 该 算法 不 同 , 处理 每 个 不 同 的 Python 类 型 的 方法 可 能 更 聪明 一 些 。 但 是 , 该 算 
法 提供 了 一 些 关 于 deepcopy () 函数 工作 原理 的 提示 。 
实际 上 ,还 有 一 些 其 他 的 注意 事项 ， 其 中 最 重要 的 注意 事项 就 是 包含 对 自身 引用 的 对 象 。 例 如 : 


有 和 2, 3] 
a.append (a) 


这 是 一 个 令 人 疑惑 但 技术 上 有 效 的 Python 构造 。 当 尝试 编写 一 个 简单 的 递归 操作 来 访问 列表 中 的 
所 有 元 素 时 ， 它 会 出 现 问题 。 为 了 克服 该 问题 ， 可 以 使 用 内 部 缓存 使 元 素 只 被 复制 一 次 。 随 后 ， 可 以 
在 缓存 中 找到 内 部 引用 。 
4.14.4 延伸 阅读 


口 4.13 节 介 绍 了 Python 喜欢 创建 对 象 的 引用 的 原因 。 
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4.15 避免 可 变 默 认 值 作 为 函数 参数 


第 3 章 介绍 了 Python 函数 定义 的 许多 知识 。3.2 节 介 绍 了 可 选 参数 的 处 理 方法 。 当 时 ， 我 们 并 没有 
讨论 指向 可 变数 据 结构 的 引用 作为 默认 值 的 问题 。 本 节 将 仔细 研究 可 变 默 认 值 作为 函数 参数 的 后 果 。 


4.15.1 准备 工作 


假设 有 一 个 创建 或 更 新 可 变 的 Counter 对 象 的 gather_stats () 国 数 。 
理想 情况 下 ， 函 数 如 下 所 示 


>>> from Collections import Counter 
>>> from random import randint, seed 
>>> def gather stats(n, samples=1000, summary=Counter()): 
summary .update( 
sum(randint(1,6) for d in range(n)) 
for _ in range(samples)) 
return summary 


上 述 代 码 是 一 个 包含 两 个 用 户 故 事 的 糟糕 设计 。 第 一 个 用 户 故 事 没 有 提供 参数 集合 。 该 B 
并 返回 一 个 统计 信息 集合 。 该 用 户 故 事 的 示例 如 下 : 


>>> seed(1) 

>>> S1 = gather stats(2) 

>>> sl 

Counter({7: 168, 6: 147, 8: 136, 9: 114, 5: 110, 10: 77, 11: 71, 4: 70, 3: 52, 12: 29, 
2: 26}) 


第 二 个 用 户 故 事 提 供 了 一 个 明确 的 参数 值 ， 以 便 统计 信息 更 新 一 个 给 定 的 对 象 。 该 用 户 故 事 的 示 
例如 下 : 


>>> seed(1) 

>>> mc = Counter() 

>>> gather stats(2, summary=mc) 

Counter... 

>>> mc 

Counter({7: 168, 6: 147, 8: 136, 9: 114, 5: 110, 10: 77, 11: 71, 4: 70, 3: 52, 12: 29, 
2: 26}) 


我 们 设置 了 随机 数 种 子 , 以 确保 两 个 随机 值 序列 相同 ,6 如果 提供 counter 对 象 或 使 用 默认 的 counter 
对 象 ， 那 么 就 很 容易 确认 结果 是 一 样 的 。 第 二 个 示例 提供 了 一 个 明确 的 名 为 mc 的 counter 对 象 。 
gather_stats() 国 数 返 回 了 一 个 值 。 在 编写 脚本 时 , 将 忽略 返回 的 值 ,在 Python 的 交互 式 REPL 
输出 打印 显示 。 示 例 用 counter . . .代替 了 宛 长 的 输出 。 
完成 上 述 两 个 操作 后 ， 在 做 以 下 操作 时 会 出 现 问题 。 


>>> Seed(1) 

>>> S3 = gather stats(2) 

>>> S3 

Counter({7: 336, 6: 294, 8: 272, 9: 228, 5: 220，10: 154, 11: 142, 4: 140, 3: 104, 12: 
58, 2: 52}) 
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请 注意 ， 计 数值 增加 了 一 倍 。 代 码 的 某 些 地 方 出 问题 了 。 因 为 只 有 多 次 使 用 默认 的 故事 时 才 会 出 


现 问题 ， 



































所 以 该 函数 可 能 通过 了 单元 测试 套件 并 显示 正确 。 











正如 4.14 节 介绍 的 ，Python 更 喜欢 共享 引用 。 共 享 的 后 果 如 下 所 示 : 


>>> sl is s3 
True 


这 说 明 变 量 sl 和 s2 是 指向 相同 底层 对 象 的 引用 ， 看 起 来 我 们 已 经 更 新 了 一 些 共享 的 集合 。 
这 是 否 说 明 sl 的 值 被 改变 了 ? 


>>> sl 
Counter({7: 336, 6: 294, 8: 272, 9: 228, 5: 220, 10: 154, 11: 142, 4: 140, 3: 104, 12: 





58, 




















2: 52}) 





是 的 ，gather_stats () 函数 的 默认 用 法 看 似 正 在 共享 同一 个 对 象 。 如 何 避 免 这 种 情况 ? 


4.15.2 


实战 演练 





解决 该 问题 的 方法 有 两 种 : 

















口 提供 不 可 变 的 默认 值 ; 
口 改变 设计 方案 。 





首先 看 一 下 不 可 变 的 默认 值 。 改 变 设计 方案 通常 是 更 好 的 方法 。 为 了 说 明 为 什么 改变 设计 更 好 ， 


变 对 象 作为 参数 的 默认 值 。 在 极 少数 情况 下 ， 如 果 有 一 个 可 以 更 新 对 象 或 创建 新 对 象 的 复杂 算法 
么 应 该 考虑 定义 两 个 单独 的 函数 。 





我 们 将 展示 纯粹 的 技术 解决 方案 。 








在 为 函数 提供 默认 值 时 ， 默 认 对 象 一 次 创建 并 永久 共享 。 第 一 种 方法 的 步 又 如 下 。 
(1) 用 None 替换 任何 可 变 的 默认 参数 值 。 

def gather_stats(n, samples=1000, summary=None): 

(2) 添加 if 语句 来 检查 参数 值 None， 并 用 新 的 可 变 对 象 替 换 None。 


if summary is None: summary = Counter() 




















这 将 确保 每 次 执行 没有 参数 值 的 函数 时 ， 将 创建 一 个 新 的 可 变 对 象 ， 避 免 了 反复 共享 同一 个 





对 象 。 











可 变 对 象 作为 函数 的 默认 值 的 好 处 并 不 多 。 在 大 多 数 情况 下 ， 应 该 考虑 改变 设计 ， 而 不 是 使 




















重 构 后 的 函数 如 下 所 示 : 


def create_stats(n, samples=1000): 
return update_stats(n, samples, Counter()) 
def update_stats(n, samples=1000, summary): 
summary .updatel( 
sum(randint (1,6) for Q in range(n)) 
Ee in range (samples)) 








， 那 


我 们 创建 了 两 个 独立 的 函数 。 这 将 分 开 两 个 故事 ， 以 免 混 乱 。 可 选 的 可 变 参 数 压根 就 不 是 一 个 好 
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4.15.3 ”工作 原理 


如 前 所 述 ，Python 更 喜欢 共享 引用 ， 而 很 少 创建 对 象 的 副本 。 因 此 ， 函 数 参数 的 默认 值 将 是 共享 
对 象 。 在 Python 中 创建 全 新 的 对 象 并 不 容易 。 
下 面 的 规则 非常 重要 ， 对 Python 不 熟悉 的 程序 员 常常 对 此 很 困惑 。 

函数 的 参数 不 要 使 用 可 变 默 认 值 。 
人 可 变 对 象 (set、1list、dict ) 不 应 该 作为 函数 参数 的 默认 值 。 



























































这 个 规则 适用 于 核心 语言 ， 却 不 适用 于 整个 标准 库 。 在 某 些 情况 下 ， 还 有 一 些 好 的 替代 方法 。 











4.15.4 ”补充 知识 


在 标准 库 些 技术 的 示例 说 明了 如 何 创建 新 的 默认 对 象 。 在 defaultqdict 集合 中 ， 有 一 个 
广泛 使 用 的 例子 。 在 创建 一 个 aefaultdaict 时 , 将 提供 一 个 无 实 参 的 函数 , 用 来 创建 新 的 字典 条 目 。 

当 字 上 典 中 缺失 一 个 键 时 ， 对 给 定 函 数 进行 求 值 以 计算 新 的 默认 值 。 在 使 用 aefaultaict (int) 
时 ,使 用 int () 函数 来 创建 不 可 变 对 象 。 如 前 所 述 ， 默 认 值 为 不 可 变 对 象 不 会 引起 任何 问题 ， 这 是 因 
为 不 可 变 对 象 没有 内 部 状态 。 

当 使 用 defaultqdict (1ist) 或 defaultdict (set) 时 ， 才 能 体会 到 这 种 设计 模式 的 真正 威力 。 
当 缺 失 一 个 键 时 ， 将 创建 一 个 新 的 、 空 的 11st (或 set )。 

defaultdict 所 使 用 的 evaluate-a-function 模式 并 不 适用 于 函数 本 身 的 操作 方式 。 大 多 数 情况 下 ， 
为 图 数 参数 提供 的 默认 值 是 不 可 变 对 象 ， 比 如 数字 、 字 符 串 或 者 元 组 。 使 用 lambqda 包装 不 可 变 对 象 
肯定 是 可 行 的 ， 但 是 这 种 方法 过 于 烦琐 ， 并 不 是 最 佳 实践 。 

为 了 利用 这 种 技术 ,需要 修改 函数 的 设计 。 我 们 将 不 再 更 新 该 函数 中 现 有 的 counter 对 象 ， 而 
是 始终 创建 一 个 全 新 的 对 象 。 可 以 修改 创建 对 象 的 类 。 

以 下 是 允许 搬入 一 个 不 同 的 类 的 函数 ， 因 为 我 们 不 希望 使 用 默认 的 counter 类 。 


>>> def gather stats(n, samples=1000, summary_ func=lambda x:Counter(x)): 
summary = Summary func ( 
sum(randint(1,6) for Q in range(n)) 
for _ in range(samples)) 
return summary 


我 们 把 初始 值 定义 为 只 有 一 个 参数 的 函数 。 默认 值 将 把 这 个 单 参数 函数 应 用 于 随机 样本 的 生成 函 
数 。 可 以 使 用 另 一 个 收集 数据 的 单 参数 函数 来 覆盖 这 个 函数 。 这 将 使 用 任意 可 以 收集 数据 的 对 象 来 构 
建 一 个 全 新 的 对 象 。 

使 用 1ist () 的 示例 如 下 : 


>>> seed(1) 
>>> gather_ stats(2, 12, summary_ func=list) 
[7, 4, 5, 8, 10, 3, 5, 8, 6, 10, 9, 7] 


在 本 例 中 ，1ist () 函数 用 于 创建 包含 独立 随机 样本 的 列表 。 
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没有 summary_func 参数 值 的 示例 如 下 。 该 示例 将 创建 一 个 Counter 对 象 。 
>>> seed(1) 
>>> gather stats(2, 12) 


Counter({5: 2, 7: 2, 8: 2, 10: 2, 3: 1, 4: 1, 


本 例 使 用 了 默认 值 。 函 数 通过 随机 样本 创建 了 一 个 counter () 对象。 
4.15.5 延伸 阅读 





口 4.9 节 介 绍 了 defaultdict 的 工作 原理 。 


第 5 章 


用 户 输入 和 输出 








本 章 主 要 介绍 以 下 实例 。 

口 使 用 print () 函数 的 功能 

口 使 用 input () 和 getpass () 收 集 用 户 输入 

口 使 用 " format" . format_map (vars () ) 进行 调试 
口 使 用 argparse 模块 获取 命令 行 输入 

口 使 用 cma 模块 创建 命令 行 应 用 程序 
口 使 用 操作 系统 环境 设置 





























5.1 引言 


软件 的 核心 价值 在 于 产生 有 用 的 输出 。 结 果 的 文本 显示 就 是 一 种 简单 的 输出 。Python 通过 print () 
函数 支持 这 种 输出 。 


input () 函数 与 print () 函数 具有 明显 的 相似 性 。input () 函数 从 控制 台 读 取 文 本 ,可 以 为 程序 
提供 不 同 的 值 。 

提供 输入 的 常用 方法 有 很 多 种 。 解 析 命 令 行 对 于 许多 应 用 程序 都 有 用 。 我 们 有 时 需要 使 用 配置 文 
件 来 提供 有 用 的 输入 。 数 据 文件 和 网 络 连接 提供 了 多 种 形式 的 输入 。 这 些 方法 各 不 相同 ， 需 要 分 别 讨 
论 。 本 章 重点 介绍 input () 和 print () 的 基本 功能 。 








5.2 使 用 print () 了 水 数 的 功能 


在 大 多 数 情况 下 , print () 函数 是 我 们 学 习 的 


print ("Hello world.") 


A 
第 





一 个 函数 。 我 们 的 第 一 个 脚本 通常 类 似 于 以 下 代码 : 





我 们 很 快 就 会 学 到 ，print () 函数 可 以 显示 多 个 值 ， 值 与 值 之 间 将 包含 一 个 空格 ， 示 例如 下 : 
>>> Count = 9973 


>>> print ("Final count", count) 
Final count 9973 


从 上 述 示 例 可 知 ，print () 函数 添加 了 一 个 空格 来 分 隔 这 两 个 值 。 此 外 ， 通 常 由 \n 字符 表示 的 


142 第 5 章 用 户 输入 和 输出 





换行 符 将 输出 在 函数 提供 的 值 之 后 。 
可 以 控制 这 种 格式 吗 ? 可 以 改变 提供 的 额外 字符 吗 ? 
实际 上 ，print () 函数 还 有 很 多 其 他 功能 。 


5.2.1 准备 工作 
假设 我 们 有 一 个 用 于 记录 大 型 帆船 燃油 消耗 的 电子 表格 ， 其 内 容 如 下 。 











































































































Date 10/25/13 10/26/13 10/28/13 

Engine on 08:24:00 09:12:00 13:21:00 

Fuel height on 29 27 22 

Engine off 13:15:00 18:25:00 06:25:00 

Fuel height off 27 22 14 

有 关上 述 表 格 的 详细 信息 ， 请 参阅 4.4 节 和 4.8 节 。 油 箱 内 部 没有 液 位 计 ， 燃 料 的 深度 必须 通过 
油箱 侧面 的 观察 镜 进 行 读 取 ， 这 就 是 用 深度 来 表示 燃料 容量 的 原因 。 油 箱 的 完整 深度 约 为 31 英寸 ， 


















































容量 约 为 72 加 仑 ， 将 深度 转换 成 容量 是 很 方便 的 。 
使 用 CSV 数据 的 示例 如 下 。 该 函数 读 取 文件 并 返回 由 每 行内 容 构建 的 字段 列表 。 


>>> from pathlib import Path 

>>> import csv 

>>> from collections import OrderedDict 

>>> def get fuel use(source path): 

with source path.open() as source file: 
rdr= csv.DictReader(source file) 
od = (OrderedDict( 
[(column, row[column]) for column in rdr.fieldnames]) 
for row in rdr) 
data = list(od) 
return data 

>>> source path = Path("code/fuel2.csv") 

>>> fuel use= get_ fuel usel(source path) 

>>> fuel use 

[OrderedDict([('date', '10/25/13'), ('engine on', '08:24:00'), 
('fuel height on', '29'), ('engine off', '13:15:00'), 
('fuel height off', '27')]), 

OrderedDict([('date', '10/26/13'), ('engine on', '09:12:00'), 
('fuel height on', '27'), ('engine off', '18:25:00'), 
('fuel height off', '22')]), 

OrderedDict([('date', '10/28/13'), ('engine on', '13:21:00'), 
('fuel height on', '22'), ('engine off', '06:25:00'), 
('fuel height off', '14')])] 


求 














我 们 使 用 了 pathlip.Path 对 象 来 定义 原始 数据 的 位 置 。 我 们 还 定义 了 set_fuel_use () 函数 ， 
它 将 通过 给 定 的 路 径 打开 并 读 取 文件 。 该 函数 根据 源 电子 表格 创建 一 个 行 的 列表 。 每 行 数据 都 表示 为 


























一 个 orderedDict 对 象 。 














该 函数 首先 创建 csv .DictReader 对 象 来 解析 原始 数据 。csv .DictReader 对 象 通常 返回 
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内 置 的 aict 对 象 ，dict 对 象 默认 不 对 键 排 序 。 为 了 实现 键 排 序 ， 该 函数 使 用 生成 右 表 达 式 为 每 行 
创建 了 一 个 orderedDict 对 象 。rdr 的 fieldnames 属性 用 于 对 列 进 行 排序 。 生 成 器 表达 式 使 用 一 
对 般 套 的 循环 ， 内 部 循环 用 于 处 理 行 的 每 个 字段 ， 外 部 循环 用 于 处 理 数据 的 每 一 行 。 

结果 是 一 个 包含 orderedDict 对 象 的 列表 对 象 。 这 个 对 象 是 我 们 可 以 用 于 打印 的 一 致 数据 源 ， 
每 行 基于 第 一 行 中 的 列 名 称 分 为 5 个 字段 。 




































































5.2.2 ”实战 演练 


控制 print () 函数 输出 格式 的 方法 有 两 种 : 

口 设置 字段 分 隔 符 ssp ， 默 认 值 为 一 个 空格 ; 

口 设置 行 尾 结束 符 snda， 默 认 值 为 \n 字符 。 

本 实例 将 展示 几 个 修改 sep 和 eng 的 示例 。 每 个 示例 都 是 一 种 单 步 实例 。 
默认 情况 如 下 所 示 ， 该 示例 没有 改变 sep 或 eng。 


>>> for leg in fuel use: 

start = float(leg['fuel height on']) 

finish = float(leg['fuel height off']) 

print ("On", leg['date'], 

'from', leg['engine on'], 

'to', leg['engine off'], 

3 etn start-finish, 'in.') 

On 10/25/13 Eo 08:24:00 to 13:15:00 change 2.0 in. 
On 10/26/13 from 09:12:00 to 18:25:00 change 5.0 in. 
On 10/28/13 from 13:21:00 to 06:25:00 change 8.0 in. 


由 输出 结果 可 知 ， 每 个 数据 项 之 间 都 插入 了 一 个 空格 。 每 个 数据 项 集合 末尾 的 \n 字符 意味 着 每 
个 print () 函数 产生 一 个 单独 的 行 。 

在 准备 数据 时 ,我们 可 能 希望 使 用 与 逗号 分 隔 值 类 似 的 格式 ， 使 用 的 列 分 隔 符 或 许 不 是 一 个 简单 
的 逗号 。 使 用 | 做 为 分 隔 符 的 示例 如 下 : 


>>> print ("date", "start", "end", "depth", sep=" | ") 
date | start | end | depth 
>>> for leg in fuel use: 
start = float(leg['fuel height on']) 
finish = float(leg['fuel height off']) 
print(leg['date'], leg['engine on']， 
leg['engine off'], start-finish, sep=" | ") 
10/25/13 | 08:24:00 | 13:15:00 | 2.0 
10/26/13 | 09:12:00 | 18:25:00 | 5.0 
10/28/13 | 13:21:00 | 06:25:00 | 8.0 


在 本 例 中 ， 每 列 都 使 用 了 给 定 的 分 隔 符 。 因 为 ena 设置 没有 任何 变化 ， 所 以 每 个 print () 函数 

都 会 产生 一 个 单独 的 行 。 
我 们 加 第 想 完 全 控制 分 隔 符 ， 这 样 就 可 以 良好 地 控制 输出 。 

通过 更 改 默 认 标点 符号 来 强调 字段 名 称 和 值 的 示例 如 下 所 示 。 该 例 修改 了 ena 设置 。 
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>>> for 


leg in fuel use: 
start = float(leg['fuel height on']) 
finish = float(leg['fuel height off']) 


print('date', leg['date'], sep='=', end=', ') 
print('on', leg['engine on'], sep='=', end=', ') 
print('off', leg['engine off'], sep='=', end=', ') 
print('change', start-finish, sep="=") 


date=10/25/13, on=08:24:00, off=13:15:00, change=2.0 
date=10/26/13, on=09:12:00, off=18:25:00, change=5.0 
date=10/28/13, on=13:21:00, off=06:25:00, change=8.0 


由 于 行 尾 











结束 字符 串 已 修改 为 , ， 因 此 在 最 后 一 个 使 用 ena 默认 值 的 print () 函数 之 前 ， 每 次 使 


用 print () 函数 都 不 会 换行 。 
显然 ， 对 于 更 复杂 的 情况 ， 使 用 这 种 技术 将 变 得 相当 烦琐 。 对 于 一 些 简单 的 输出 ， 可 以 调整 分 隔 
符 或 者 行 尾 结束 符 。 对 于 更 复杂 的 输出 ， 最 好 使 用 字符 串 的 format ( ) 方 法 。 


5.2.3 ”工作 原理 


一 般 情况 下 ，print () 函数 是 stdqout .write() 的 一 个 简易 包装 。 这 种 关系 是 可 以 改变 的 ， 随 后 
将 介绍 如 何 改变 。 
假设 print () 的 定义 如 下 所 示 : 


def print (*args, *, sep=None, end=None, file=sys.stdout): 
if sep is None: sep = " 
if end is None: end = '\n' 
arg_iter= iter(args) 
first = next (arg_iter) 


SYS . 
for 


SYS . 
































Stadaout .write(repr (first)) 
value in arg_iter: 

sys.stdout .write (sep) 
sys.stdout.write(repr (value()) 
stdout .write (end) 
































该 定义 说 明了 在 print () 函数 的 输出 中 添加 分 隔 符 和 行 尾 结束 符 的 实现 方法 。 如 果 没 有 提供 分 隔 
符 和 行 尾 结束 符 ， 则 默认 值 为 空格 和 新 行 。 函 数 遍历 参数 值 ， 将 第 一 个 值 视 为 特殊 值 ， 这 是 因为 它 没 


有 分 隔 符 。 这 种 方法 确保 分 隔 符 sep 出 现在 各 个 值 之 间 。 



































行 尾 结束 符 eng 出 现在 所 有 值 之 后 。 行 尾 结束 符 默 认为 \a， 可 以 将 其 设置 为 空 字符 串 ， 从 而 有 


效 地 关闭 它 。 




















5.2.4 补充 知识 


sys 模块 定义 了 两 个 用 于 输出 的 标准 文件 : sys .stdqout 和 svs.stderr。 
除 标准 输出 文件 外 ， 还 可 以 使 用 file= 关键 字 参 数 写 人 标准 错误 文件 。 


import sys 
print ("Red Alert!", file=sys.stderr) 


访问 标准 错误 文件 需要 导入 sys 模块 。 通 过 这 种 方法 ,我 们 写 信 了 一 个 不 属于 标准 输出 流 的 消息 
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通常 ， 应当 尽 量 避 人 免 在 一 个 程序 中 打开 过 多 的 输出 文件 。 虽然 在 达到 操作 系统 的 限制 之 前 足以 打 
开 许 多 文件 ， 但 是 ， 当 程序 创建 大 量 文件 时 ， 可 能 会 造成 混乱 。 

操作 系统 文件 重 定向 技术 通常 非常 有 效 。 程 序 的 主要 输出 可 以 写 入 sys .stdout ， 这 在 操作 系统 
级 别 很 容易 重 定向 ， 示 例如 下 : 


python3 myapp.py <input.dat> output.dat 


该 示例 将 提供 input .dat 文件 作为 sys .stdin 的 输入 。 当 Python 程序 写 人 sys .stdout 时 ， 
输出 将 被 操作 系统 重 定向 到 output .aat 对 象 。 
在 某 些 情况 下 ， 可 能 需要 打开 其 他 文件 ， 示 例如 下 : 


from pathlib import Path 

target path = Path("somefile.dat") 

with target path.open('w', encoding='utf-8') as target_file: 

print ("Some output", file=target_file) 
print ("Ordinary log") 

在 本 例 中 ， 我 们 打开 了 一 个 特定 的 输出 路 径 ， 并 使 用 with 语句 把 已 打开 的 文件 赋值 给 了 
target_file。 然 后 , 用 target_file 作为 print() 国 数 的 file= 参数 值 写 人 文件 。 因 为 文件 是 
上 下 文 管理 器 ， 所 以 witn 语句 意味 着 文件 将 正确 关闭 ， 所 有 操作 系统 资源 将 从 应 用 程序 中 释放 。 所 
有 文件 操作 都 应 包含 在 with 语句 上 下 文中 ， 以 确保 资源 正确 释放 。 



























































5.2.5 ”延伸 阅读 


口 请 参阅 5.4 节 。 
口 关于 本 实例 的 输入 数据 的 更 多 相关 信息 ， 请 参阅 4.4 节 和 4.8 节 。 
口 关于 常用 文件 操作 的 更 多 相关 信息 ， 请 参阅 第 9 章 。 


5.3 使 用 input() 和 getpass() 收 集 用 户 输入 


某 些 Python 脚本 依赖 于 收集 用 户 输入 。 收集 用 户 输入 的 方法 有 很 多 种 , 其 中 一 种 流行 的 技术 就 是 
使 用 控制 台 提 示 用 户 输 入 。 
相对 常见 的 情况 有 两 种 。 
口 普通 输入 : 通常 使 用 input () 函数 。 输 入 字符 时 将 提供 回 显 (echo )。 
口 没有 回 显 的 输入 : 通常 用 于 密码 。 不 显示 输入 的 字符 ， 提 供 一 定 程度 的 隐私 保护 。 通 常 使 用 
getpass 模块 中 的 getpass () 函数 。 
input () 函数 和 getpass () 函数 是 两 种 从 控制 台 读 取 数 据 的 实现 方式 。 实际 上 , 获取 字符 串 只 是 
ee 步 ， eh 
(1) 与 控制 台 的 初步 交互 。 该 层次 是 写 入 提示 符 和 读 取 输入 的 基础 ， 必 须 正确 处 理 数 据 以 及 键盘 
事件 ， 例 如 编辑 输入 时 使 用 的 退 格 键 。 该 层次 也 需要 适当 地 处 理 文件 结束 符 。 
(2) 验证 输入 ， 判 断 输 入 是 否 属于 预期 的 值 域 。 预 期 值 可 能 包括 数字 、yes/no 值 或 星期 中 的 天 数 。 
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在 大 多 数 情况 下 ， 验 证 层 可 分 为 两 个 部 分 。 
口 检查 输入 是 否 符合 常用 域 ， 例 如 数字 。 
口 检查 输入 是 否 符合 更 具体 的 子 域 。 例 如 ， 检 查 数字 是 否 大 于 或 等 于 0。 
(3) 在 更 复杂 的 情景 中 验证 输入 ， 确 保 与 其 他 输入 一 致 。 例 如 ， 检 查 用 户 的 出 生日 期 是 否 在 今天 
之 前 。 
除了 这 些 技术 之 外 ，5.5 节 还 将 介绍 其 他 获取 用 户 输入 的 方法 。 


5.3.1 准备 工作 


本 实例 将 首先 介绍 一 种 读 取 用 户 输入 的 复杂 结构 的 技术 ,我 们 将 使 用 年 、 月 和 日 作为 单独 的 数据 
项 来 创建 完整 的 日 期 。 
省 略 所 有 验证 考虑 的 简单 示例 如 下 ; 


from datetime import date 

































































def get_date(): 
year = int(input ("year: ")) 
month = int(input ("month [1-12]: ")) 
day = int(input ("day [1-31]: ")) 
result = datel(year, month, day) 
return result 


该 示例 说 明了 input () 函数 的 易 用 性 。 我 们 经 常 需要 将 input () 函数 包装 在 其 他 处 理 过 程 中 来 
实现 更 实用 的 功能 。 关 于 日 期 的 处 理 很 复杂 ， 例 如 2 月 32 日 ， 如 果 不 提示 用 户 这 不 是 正确 的 日 期 ， 
那么 可 能 会 造成 极 大 的 逻辑 错误 。 






































5.3.2 ”实战 演练 


(1) 检查 输入 是 否 是 密码 或 者 其 他 同样 需要 修订 的 内 容 。 如 果 是 ， 那 么 就 需要 使 用 getpass . 
getpass () 图 数 。 因 此 ， 需 要 导入 getpass .getpass () 国 数 。 


from getpass import getpass 


如 果 不 需 要 修订 输入 ， 则 使 用 input () 函数 。 

(2) 确定 使 用 哪 种 提示 符 。 提 示 符 可 能 是 简单 的 >>> 或 者 更 复杂 的 内 容 。 在 某 些 情况 下 ,我 们 可 能 
会 提供 大 量 的 背景 信息 。 
在 本 示例 中 , 我 们 提供 了 一 个 字段 名 称 和 一 个 预期 数据 类 型 的 提示 作为 提示 字符 串 。 提 示 字 符 串 
是 input () 函数 或 者 getpass () 函数 的 参数 。 


year = int(input ("year: ")) 


(3) 确定 独立 验证 日 期 数据 每 个 字段 的 方法 。 在 最 简单 的 情况 下 ， 数 据 只 是 一 个 值 ， 一 个 规则 就 
可 以 覆盖 所 有 数据 。 在 更 复杂 的 情况 下 ， 比 如 本 例 ， 数 据 是 复合 数据 ， 每 个 数据 项 都 是 一 个 范围 约束 
的 数字 。 稍 后 的 步 双 将 说 明 如 何 验证 复合 数据 。 
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(4) 重新 组 织 输 入 ， 如 下 所 示 。 


month = None 
while month is None: 
month_ text = input ("month [1-12]: ") 
try: 
month = int (month text) 
iE -1 :<= nt 2: 
pass 
else: 











raise ValueError("Month of range 1-12") 
except ValueError as ex: 
print (ex) 
month = None 


上 述 步 又 对 输入 应 用 了 两 个 验证 规则 : 
口 使 用 int () 函数 检查 月 份 是 否 为 有 效 整数 ; 
口 使 用 抛 出 ValueError 异常 的 if 语句 检查 整数 是 否 在 [1, 12] 范 围 内 。 
针对 错误 输入 抛 出 异常 通常 是 最 简单 的 处 理 方法 。 这 种 处 理 方法 非常 灵活 。 我 们 可 以 使 用 其 他 异 
常 类 ， 包 括 定义 自 定 义 的 数据 验证 异常 。 

由 于 对 复杂 对 象 的 每 个 字段 使 用 的 循环 几乎 都 是 相同 的 , 因此 需要 重 构 输 入 并 将 验证 序列 改 为 验 
证 单独 的 函数 。 这 个 函数 名 为 get_integer () ， 具 体 信息 如 下 。 

(1) 验证 复合 对 象 。 在 本 例 中 ， 这 也 意味 着 需要 重 构 整 个 输入 ， 以 便 在 输入 错误 时 进行 重 试 。 


input_date = None 
while input_date is None: 















































year = get_integer("year: ", 1900, 2100) 
month = get_integer ("month [1-12]: ", 1, 12) 
day = get_integer("day [1-31]: ", 1, 31) 

Gh 


result = datel(year, month, day) 
except ValueError as ex: 
print (ex) 
input_date = None 
# 坚持 认为 input_date 是 用 户 输入 的 有 效 日 期 


while 循环 实现 了 复合 日 期 对 象 的 更 高 级 的 验证 。 
实际 上 ， 只 要 给 定年 份 和 月 份 ， 就 可 以 将 天 数 的 范围 设置 的 更 罕 一 些 ， 其 中 比较 复杂 的 问题 是 ， 
不 仅 每 个 月 份 之 间 存 在 不 同 的 天 数 (从 28 到 31 不 等 )， 而 且 随 着 年 份 类 型 的 变化 ， 二 月 份 也 存在 不 
同 的 天 数 。 
(2) 与 模拟 每 月 天 数 的 规则 相 比 , 使 用 datet ime 模块 计算 两 个 相 邻 月 份 的 第 一 天 的 方法 更 简单 ， 
如 下 所 示 。 


day_1_ date = datel(year, month, 1) 
if month ==. 12: 

next_year, next_month = year+l, 1 
else: 




















ey 






































next_year, next_month = year, month+l 
day_end_ date = date(next_ year, next_ month, 1) 





148 第 5 章 用 户 输入 和 输出 





该 示例 正确 地 计算 了 给 定 月 份 的 持续 天 数 。 首 先 计 算 给 定年 份 和 月 份 的 第 一 天 ,然后 计算 下 个 月 
的 第 一 天 ， 两 个 日 期 之 间 的 天 数 就 是 给 定 月 份 的 持续 天 数 。 可 以 使 用 表达 式 (day_eng_gdate - 
day_1_date) .days 从 timedelta 对 象 中 提取 天 数 。 

该 示例 正确 地 处 理 了 年 份 的 过 渡 ， 这 样 year+1 的 一 月 份 可 以 紧 跟 着 year 的 十 二 月 份 。 
































5.3.3 ”工作 原理 


我 们 需要 将 输入 问题 分 解 成 几 个 独立 而 又 密切 相关 的 问题 。 用 户 的 初始 交互 是 验证 处 理 层次 中 的 
最 底层 。 处 理 初 始 交互 的 常用 方法 有 两 种 。 








口 input () 























: 提供 提示 符 ， 读 取 输 入 。 
D getpass.getpass() : 提供 提示 符 ， 读 取 不 带 回 显 的 密码 。 


















































我 们 希望 能 够 使 用 Backspace 字符 来 编辑 当前 的 输入 行 。 在 某 些 环境 中 ， 可 以 使 用 更 复杂 的 编 

















前 的 任何 输入 。 


为 了 说 明 验 说 
口 通用 域 验证 应 该 使 用 简单 的 转换 函数 ， 例 如 int () 或 float () 。 对 于 无 效 数 据 ， 这 些 函 数 倾 
向 于 抛 出 异常 。 使 用 转换 函数 和 异常 处 理 比 编写 匹配 有 效 数值 的 正则 表达 式 要 简单 得 多 。 

口子 域 验证 必须 使 用 if 语句 来 确定 输入 值 是 否 符合 所 有 附加 约束 ( 比如 范围 )。 为 了 保持 一 致 
性 ， 如 果 数 据 无 效 ， 也 应 当 抛 出 异常 。 














辑 器 ， 例 如 Python 的 readl ine 模块 。 该 模块 可 以 在 准备 输入 行 时 添加 大 量 的 校订 ， 例 如 自动 补 全 、 
使 用 删除 键 等 。 该 模块 的 另 一 个 主要 功能 是 实现 操作 系统 级 的 输入 历史 ， 可 以 使 用 向 上 箭头 键 恢复 以 














FE 有 效 输 入 的 程序 设计 ， 可 以 将 输入 验证 分 解 为 多 个 层次 。 

































































很 多 约束 种 类 都 可 能 用 于 输入 值 验证 。 例 如 ， 我 们 可 能 只 想 要 有 效 的 操作 系统 进程 ID (PID )。 
对 于 Nanny Linux 系统 ， 需 要 检查 /proc/<pidq> 路 径 。 

对 于 基于 BSD 的 系统 ( 比如 Mac OS X )， 不 存在 /proc 文件 系统 。 因 此 ， 需 要 完成 以 下 操作 来 
确定 PID 是 否 有 效 : 


import subprocess 
status = Subprocess .check_output ( 
['ps',PID]) 


对 于 Windows 系统 ， 操 作 如 下 所 示 : 


status = Subprocess .check_output ( 
['tasklist', '/fi', '"PID eq {PID}"'.format (PID=PID)]) 


这 两 个 函数 中 的 每 一 个 都 应 当 是 输入 验证 的 一 部 分 ,以 确保 用 户 输入 了 正确 的 PID 值 。 该 操作 只 





有 在 确保 输入 通过 最 早 的 整数 域 验证 时 才能 使 用 。 















































最 后 ， 整 体 输入 函数 也 应 当 抛 出 无 效 输入 异常 。 但 是 ， 这 种 需求 可 能 会 带 来 相当 大 的 复杂 性 。 我 
们 只 是 在 示例 中 创建 了 一 个 简单 的 日 期 对 象 。 在 其 他 情况 下 ， 可 能 需要 更 多 的 处 理 才能 确定 复杂 的 输 





入 是 否 有 效 。 
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5.3.4 补充 知识 


用 户 输入 的 解决 方案 还 有 很 多 种 ， 本 将 详细 介绍 其 中 的 两 种 方法 。 
口 解析 输入 字符 串 : 这 种 方法 涉及 input () 的 简单 使 用 以 及 巧妙 的 解析 。 
口 通过 cma 模块 进行 交互 : 这 种 方法 涉及 一 个 更 复杂 的 类 以 及 一 些 简单 的 解析 。 
1. 解析 输入 字符 串 
一 个 简单 的 日 期 值 需要 3 个 独立 的 字段 。 更 复杂 的 日 期 时 间 值 ， 例 如 ， 包 含 UTC 时 区 偏离 值 的 
日 期 时 间 值 将 涉及 7 个 独立 的 字段 。 读 取 和 解析 字符 串 可 以 改善 用 户 体验 。 
对 于 简单 的 日 期 输入 ， 可 以 使 用 以 下 处 理 方法 : 


raw_date_str = input("date [yyyy-mm-dd]: ") 
input_date = datetime.strptime (raw_ date_str, '%Y-%m-%d') .date() 


我 们 使 用 了 strptime () 函数 来 解析 给 定格 式 的 时 间 字 符 串 。 在 input () 函数 提供 的 提示 符 中 ， 
已 经 强调 了 预期 的 日 期 格式 。 

这 种 输入 风格 需要 用 户 输入 更 复杂 的 字符 串 。 由 于 只 需要 一 个 包含 所 有 日 期 详细 信息 的 字符 串 ， 
因此 很 多 人 认为 这 种 方法 更 容易 、 更 友好 。 

请 注意 ， 收 集 各 个 字段 和 处理 复 杂 字 符 串 这 两 种 技术 均 依 赖 于 底层 的 input 

2. 通过 cma 模块 进行 交互 

cmqd 模块 包含 可 用 于 构建 交互 式 界面 的 cmd 类 。 这 种 方法 与 用 户 交 互 的 概念 截然 不 同 。 它 不 依赖 
于 input () 的 显 式 使 用 。 

5.6 节 将 详细 介绍 cma 模块 。 














































































































国 数 。 





























5.3.5 延伸 阅读 
在 Oracle 的 SunOS 操作 系统 参考 资料 中 ， 有 一 组 命令 可 以 提示 不 同类 型 的 用 户 输入 : 


https://docs.oracle.com/cd/E19683-01/816-0210/6m6nb7 m5d/index.html 


具体 来 说 ， 这 些 以 ck 开头 的 命令 都 可 以 用 于 收集 和 验证 用 户 输入 ， 也 可 以 用 于 定义 输入 验证 规 
则 的 模块 。 
口 ckdate: 提示 输入 并 验证 日 期 。 
口 ckgid: 提示 输入 并 验证 组 ID。 
口 ckint: 显示 提示 符 ， 验 证 并 返回 整数 值 。 
口 ckitem: 构建 菜单 ， 提 示 选 择 并 返回 菜单 项 。 
口 ckkeywd: 提示 输入 并 验证 关键 字 。 
口 ckpath: 显示 提示 符 ， 验 证 并 返回 路 径 名 。 
口 ckrange: 提示 输入 并 验证 整数 。 
口 ckstr: 显示 提示 符 ， 验 证 并 返回 字符 串 答 复 。 
口 cktime: 显示 提示 符 ， 验 证 并 返回 一 天 中 的 时 间 。 
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D ckuid: 提示 输入 并 验证 用 户 ID。 
口 ckyorn: 提示 并 验证 是 / 否 。 





5.4 使 用 "format" .format _ map (vars () ) 进行 调试 

















print () 函数 是 Python 最 重要 的 调试 和 设计 工具 之 一 。print () 图 数 有 多 种 可 用 的 格式 化 选项 ， 
5.2 节 介 绍 了 相关 内 容 。 
如 果 需 要 更 灵活 的 输出 怎么 办 ? "format" .format_map () 方 法 可 以 提供 更 灵活 的 输出 。 但 是 这 
还 不 是 最 重要 的 ， 我 们 还 可 以 将 其 与 vars () 函数 相 结 合 ， 创 造 出 一 些 令 人 赞叹 的 用 法 ! 


5.4.1 准备 工作 


本 实例 主要 讨论 一 个 涉及 复杂 计算 的 多 步 又 处 理 。 首 先 计算 一 些 样本 数据 的 平均 值 和 标准 差 ， 然 
后 通过 这 些 值 ， 可 以 找到 所 有 超过 平均 值 一 个 标准 差 以 上 的 数据 。 


>>> import statistics 
>>> size = [2353, 2889, 2195, 3094, 
. 725, 1099, 690, 1207, 926, 
.. 758, 615, 521, 1320] 
>>> mean size = statistics.mean(size) 
>>> stqd_ size = statistics.stdev(size) 
>>> sigl = round(mean size + std size, 1) 
>>> [x for x in size if x > sig1] 
[2353, 2889, 3094] 

































































该 示例 包含 多 个 变量 。 变 量 mean_size、stqd_size 和 sigl 都 显示 过 滤 size 列表 的 列表 解析 
式 的 元 素 。 如 果 出 现 邻 人 困惑 甚至 不 正确 的 结果 , 那么 了 解 计 算 的 中 间 步 又 是 很 有 帮助 的 。 在 本 例 中 ， 
因为 它们 都 是 浮 点 值 ， 所 以 通常 希望 对 结果 进行 舍 和 信 ， 从 而 使 数据 更 有 意义 。 





































































































5.4.2 ”实战 演练 


(1) vars () 函数 从 各 种 来 源 构 建 一 个 字典 结构 。 

(2) 如 果 没 有 给 出 参数 ， 那 么 在 默认 情况 下 ，vars () 函数 将 扩展 所 有 局 部 变量 。 这 会 创建 一 个 映 
射 ， 这 个 映射 可 以 用 于 模板 字符 串 的 format_map () 方 法 。 

(3) 使 用 映射 可 以 利用 变量 名 称 将 变量 注入 格式 模板 。 如 下 所 示 。 

>>> print( 


"mean={mean size:.2f}, std={std size: .2f}" 
.format map(vars()) 


















































Se ) 
mean=1414.77, std=901.10 


可 以 把 任意 局 部 变量 放 和 人 格式 化 字符 串 。 不 需要 更 复杂 的 方法 来 选择 要 显示 的 变量 ， 使 用 
format_map (vars () ) 就 足够 了 。 
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5.4.3 ”工作 原理 


vars () 函数 从 各 种 来 源 构 建 一 个 字典 结构 。 
口 vars () 表达 式 将 扩展 所 有 局 部 变量 ,创建 可 以 用 于 format_map () 方 法 的 映射 。 
口 vars (object) 表 达 式 将 扩展 对 象 _qdict_ 属性 中 的 所 有 元 素 。 这 种 方法 允许 我 们 暴露 类 定 
义 和 对 象 的 属性 。 第 6 章 将 介绍 如 何 利 用 这 种 技术 。 

format_map () 方 法 只 需要 一 个 映射 类 型 的 参数 值 。 格 式 化 字符 串 使 用 {name} 引 用 映射 中 的 键 。 
可 以 使 用 tname: format } 提供 格式 规范 , 也 可 以 使 用 {name!conversion} 提 供 使 用 repr()、str() 
或 ascii () 函数 的 转换 函数 。 

有 关 格 式 化 选项 的 详细 背景 ， 请 参阅 1.8 节 。 


















































5.4.4 补充 知识 


format_map (vars () ) 技术 是 一 种 显示 变量 值 的 简便 方法 。format (**vars () ) 技术 是 另 一 种 显 
示 变 量 值 的 方法 ， 这 种 方法 可 以 提供 更 大 的 灵活 性 。 
例如 ， 可 以 使 用 这 种 更 灵活 的 格式 来 添加 计算 过 程 ， 而 不 仅仅 是 局 部 变量 。 


>>> print( 
"mean={mean size: .2f}, std={stqd size: .2f}," 
" limit2={sig2:.2f}" 
.format (sig2=mean size+2*std size, **vars()) 



































re 
mean=1414.77, std=901.10, limit2=3216.97 


我 们 计算 了 一 个 新 值 sig2， 它 只 出 现在 格式 化 输出 中 。 


5.4.5 ”延伸 阅读 


口 关于 format () 方 法 的 更 多 信息 ， 请 参阅 1.8 节 。 
口 关于 其 他 格式 选项 的 相关 信息 ， 请 参阅 5.2 节 。 


5.5 使 用 argparse 模块 获取 命令 行 输入 


有 时 ,我 们 和 希望 在 没有 大 量 交互 的 情况 下 ， 从 操作 系统 命令 行 获取 用 户 输 入 。 我 们 更 愿意 解析 命 
令 行 参 数值 ， 执 行 处 理 或 者 报告 错误 。 
例如 ， 在 操作 系统 级 运行 以 下 程序 : 


slott$ python3 ch05 r04.py -r KM 36.12,-86.67 33.94,-118.40 
From (36.12, -86.67) to (33.94, -118.4) in KM = 2887.35 


操作 系统 的 提示 符 是 slotts。 我 们 输入 了 python3 ch05_r04.py 命令 。 该 命令 有 一 个 可 选 的 参 
数 -rx KM 以 及 两 个 位 置 参数 36.12,-86.67 和 33.94,-118.40。 
这 个 程序 解析 命令 行 参数 并 将 结果 写 入 控制 台 。 这 种 方法 可 以 实现 简单 的 用 户 交 互 , 简化 了 应 用 
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程序 。 用 户 可 以 编写 一 个 shell 脚本 来 调用 程序 ， 或 者 将 程序 与 其 他 Python 程序 合并 来 创建 一 个 更 
级 的 程序 。 
如 果 用 户 输入 错误 ， 则 交互 可 能 如 下 所 示 : 


Slott$ python3 ch05 r04.py -r KM 36.12,-86.67 33.94,-1l8asd 
usage: ch05 r04.py [-h] [-r {NM,MI,KM}] pl p2 
ch05_r04.py: error: argument p2: could not convert string to float: '-1ll8asd' 


无 效 的 参数 值 -118asa 导致 错误 消息 。 程 序 停 止 运 行 并 显示 错误 状态 码 。 在 大 多 数 情况 下 ， 用 
户 可 以 按 上 箭头 键 来 获取 前 一 个 命令 行 ， 进 行 更 改 ， 然 后 再 次 运行 程序 。 交 互 被 委托 给 了 操作 系统 命 
令 行 。 

程序 的 名 称 ch05_r04 没有 提供 太 多 深入 的 信息 。 我 们 也 许可 以 做 得 更 好 。 位 置 参 数 是 两 个 ( 纬 
度 , 经 度 ) 对 。 输 出 信息 以 给 定单 位 显示 两 点 之 间 的 距离 。 

如 何 从 命令 行 解析 参数 值 ? 


5.5.1 准备 工作 


首先 ， 重 构 代 码 ， 创 建 两 个 独立 的 函数 。 

口 从 命令 行 获取 参数 的 函数 。 根 据 argparse 模块 的 工作 原理 ,该 函数 几乎 总 是 返回 一 个 

argparse.Namespace 对 象 。 

口 执行 基本 计算 的 函数 。 应 当 仔细 设计 该 函数 ， 使 其 不 以 任何 方式 引用 命令 行 选项 。 这 样 该 函 
数 就 可 以 在 各 种 上 下 文中 重用 。 

执行 基本 计算 的 函数 aisplay () 如 下 所 示 : 


from ch03_r05 import haversine, MI, NM, KM 
def display (lat1, lonl, lat2, lon2, rr): 
rT float es {NM NM "KM. KM, *MIL': MI}IY] 
d = haversine( latl, lonl, lat2, lon2, r_float ) 
DELNt ("TERON CTatl}; (LONnlL} to {Lat2 >, (LTOon2}. 
"(TF Ev {Gd EF format mad.(varest(t))) 


我 们 从 另 一 个 模块 导入 了 核心 计算 naversine () ,并 为 该 函数 提供 了 参数 值 , 然 后 使 用 format () 
函数 显示 最 终 的 结果 消息 。 
该 计算 基于 3.6 节 中 的 示例 : 


0 = sin? | + cos(lat' )cos(lat, )sin” [5 


Ge 2arcsin( Va) 
基本 计算 产生 以 (iat, lon1) 和 (lats, 1on) 形 式 给 出 的 两 点 之 间 的 中 心 角 c。 角 度 以 弧度 为 单位 。 通 过 将 角 
度 乘 以 某 种 单位 的 地 球 平均 半径 , 把 角度 换算 成 距离 。 如 果 用 角度 c 乘 以 半径 3959 英里 , 那么 将 获得 
以 英里 为 单位 的 角度 所 表示 的 距离 。 
请 注意 ， 我 们 希望 以 字符 串 形式 提供 距离 转换 因子 r。 然 后 ， 将 字符 串 映射 到 实际 的 浮 点 值 。 
关于 format () 方 法 的 详细 信息 ， 请 参阅 5.4 节 。 
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在 Python 中 使 用 该 函数 的 过 程 如 下 所 示 : 


>>> from ch05_r04 import display 
>>> display(36.12, -86.67, 33.94, -118.4, 'NM') 
From 36.12,-86.67 to 33.94,-118.4 in NM = 1558.53 











该 函数 有 两 个 重要 的 功能 设计 。 第 一 个 功能 设计 是 避免 引用 由 参数 解析 创建 的 argparse. 
Namespace 对 象 的 功能 。 我 们 的 目标 是 拥有 一 个 可 以 在 多 个 上 下 文中 重用 的 函数 。 需 要 保持 用 户 界 
面 的 输入 和 输出 元 素 是 分 离 的 。 


第 二 个 功能 设计 是 该 函数 显示 由 另 一 个 函数 计算 得 到 的 值 ,该 功能 非常 有 用 , 因为 可 以 分 解 问题 。 
我 们 已 经 分 离 了 用 户 体验 和 基本 计算 。 
5.5.2 ”实战 演练 


(1) 定义 参数 解析 函数 。 


def get_options () : 
(2) 创建 parser 对 象 。 


parser = argparse.ArgumentParser () 























(3) 向 parser 对 象 添加 各 种 类 型 的 参数 。 有 时 这 样 做 很 困难 ,因为 我 们 仍 在 改进 用 户 体验 。 很 难 
想象 用 户 使 用 程序 的 所 有 方式 以 及 他 们 可 能 遇 到 的 所 有 问题 。 
本 例 有 两 个 强制 性 的 位 置 参数 和 一 个 可 选 参数 : 
口 点 1 的 纬度 和 经 度 ; 
口 点 2 的 纬度 和 经 度 ; 
口 可 选 的 距离 。 
可 以 使 用 海里 作为 方便 的 默认 值 ， 以 便 船员 得 到 需要 的 结 呈 










































































信 o 
parser.add argument ('-r', action='store', 
choices=('NM', 'MI', 'KM'), default='NM') 
parser.add argument ('pl', action='store', type=point_type) 
parser.add _ argument ('p2', action='store', type=point_type) 
A 





我 们 添加 了 两 种 参数 。 第 一 种 是 -r 参数 ， 以 -开头 表示 该 参数 为 可 选 参数 ， 有 时 - -与 较 长 的 参 
数 名 字 一 起 使 用 。 在 某 些 情况 下 ， 会 同时 提供 两 种 选择 ， 如 下 所 示 : 


adqd_argument ('--radius', '-r'....) 




















该 语句 执行 后 将 存储 在 命令 行 上 跟随 -r 的 值 。 我 们 列 出 了 3 个 可 能 的 选择 ， 并 提供 了 一 个 默认 
值 。 如 果 输 入 不 是 这 3 个 值 之 一 ,那么 paser 将 验证 输入 并 写 入 适当 的 错误 。 

强制 参数 不 带 - 前 级 。 我 们 使 用 的 action 是 store， 这 是 默认 的 action， 不 需要 说 明 。 作 为 
type 参数 提供 的 函数 用 于 将 源 字符 果 转 换 为 适当 的 Python 对 象 .这 也 是 验证 复杂 输入 值 的 理想 方式 。 
丁 将 介绍 point_type () 验证 函数 。 

(4) 执行 步 又 (2) 中 创建 的 barset 对 象 的 barse_args () 方 法 。 


options = parser.parse_args () 
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默认 情况 下 ， 该 方法 使 用 来 自 sys .argv 的 值 ， 即 用 户 输入 的 命令 行 参 数值 。 如 果 需 要 以 某 种 方 
式 修改 用 户 提供 的 命令 行 ， 那么 可 以 提供 一 个 明确 的 参数 。 
最 终 的 函数 如 下 所 示 : 
def get_options(): 


parser = argparse.ArgumentParser() 
parser.add_ argument ('-r', action='store', 

choices=('NM', 'MI', 'KM'), default='NM') 
parser.add_argument ('pl', action='store', type=point_type) 
parser.add_argument ('p2', action='store', type=point_type) 
options = parser.parse_args() 
return options 





该 函数 依赖 于 point_type() 验证 函数 , 这 是 因为 默认 输入 类 型 是 由 str () 函数 定义 的 。 这 样 可 











以 确保 参数 的 值 为 字符 串 对 象 。 我 们 提供 了 type 参数 ， 以 便 可 以 注入 一 个 类 型 转换 ， 例 如， 可 以 使 











用 typ 


= int 或 type = float 将 字符 串 转换 为 数字 。 











本 实例 曾经 使 用 point_type() 将 一 个 字符 串 转换 为 了 (纬度 , 经 度 ) 二 元 组 : 


def 


该 函 


point_type (string): 
CE 





Tat sstr, ,LOm: Str = "String solitt" 
lat = float (lat_str) 
lon = float (lon_ str) 
return lat, lon 
except Exception as ex: 
raise argparse.ArgumentTypeError from ex 


数 用 于 解析 输入 值 。 首 先 ， 根 据 ,字符 将 输入 值 分 为 两 个 值 。 然 后 ， 尝 试 对 每 个 值 进行 浮 点 
































转换 。 如 果 float () 函数 都 有 效 ， 那 么 将 获得 作为 一 对 浮 点 值 返回 的 有 效 的 纬度 和 经 度 二 元 组 。 

















如 果 











转换 出 现 问题 ， 则 将 会 抛 出 异常 。 将 从 该 异常 抛 出 ArgumentTypeError 异常 。argparse 








模块 通过 这 种 方法 向 用 户 报告 错误 。 
组 合 选项 解析 器 和 输出 显示 函数 的 主 脚本 如 下 所 示 : 


主 下 














name ee: na 

options = get_options() 

lat_1, lon 1 = options.pl 

lat_2, lon 2 = options.p2 

r= {'NM': NM, 'KM': KM, "MI": MI} [options.r] 
dLspLay.(Llat ly; "LOnm ly "Dat. 2 .LOnL2, ¥) 


























主 脚本 用 于 连接 用 户 输入 和 输出 显示 。 

(1) 解析 命令 行 选 项 。 命 令 行 选项 都 在 options 对 象 中 。 

(2) 展开 pl 和 p2， 将 这 2 个 (纬度 , 经 度 ) 二 元 组 分 为 4 个 独立 的 变量 。 
(3) 执行 sisplay () 函数 。 


5.5.3 











工作 原理 


参数 解析 可 以 分 为 3 个 阶段 。 
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(1) 通过 创建 一 个 作为 ArgumentParser 实例 的 parser 对 象 ， 定 义 整个 上 下 文 。 我 们 可 以 提供 
整体 程序 描述 等 信息 ， 也 可 以 提供 格式 化 选项 和 其 他 选项 。 

(2) 使 用 adaaq_argument () 方 法 添加 每 个 参数 。 这 些 参 数 包括 可 选 参 数 以 及 必需 的 参数 。 每 个 参 
数 都 可 以 提供 不 同类 型 的 语法 。 下 一 节 将 介绍 其 中 一 些 方 案 。 

(3) 解析 实际 的 命令 行 输入 。parser 的 parse() 方 法 将 自动 使 用 sys .argv。 可 以 提供 一 个 明 硬 
的 值 替 代 sys .argv 值 。 提 供 覆 盖 值 的 最 常见 原因 是 为 了 进行 更 完整 的 单元 测试 。 

某 些 简 单 的 程序 只 有 少量 可 选 参 数 ， 复 杂 一 些 的 程序 可 能 会 有 许多 可 选 参 数 。 

文件 名 作为 位 置 参数 是 很 常见 的 。 当 程序 读 取 一 个 或 多 个 文件 时 , 文件 名 在 命令 行 上 提供 ， 如 下 
所 未: 

Python3 some program.py *.rst 

我 们 使 用 了 Linux shell 的 globbing 功能 , * .rst 字符 串 被 扩展 为 一 个 与 命名 规则 匹配 的 所 有 文件 
的 列表 。 处 理 该 文件 列表 的 参数 定义 如 下 所 示 : 

parser.add argument ('file', nargs='*') 

命令 行 上 所 有 不 以 -开头 的 名 称 将 被 收集 到 由 parser 构建 的 对 象 的 file 值 中 。 

file 的 使 用 方式 如 下 所 示 : 


for filename in options.file: 
process (filename) 


上 述 代 码 将 处 理 命令 行 中 给 出 的 每 个 文件 。 

对 于 Windows 程序 ,shell 没有 globbing 功能 ,应 用 程序 必须 处 理 具 有 通配符 模式 的 文件 名 。Python 
的 glob 模块 可 以 提供 globbing 功能 。 此 外 , pathlib 模块 可 以 创建 具有 globbing 功能 的 Path 对 象 。 

有 时 候 我 们 可 能 需要 设计 更 复杂 的 参数 解析 选项 。 复 杂 的 应 用 程序 可 能 有 几 十 个 单独 的 命令 。 例 
如 ，git 版 本 控制 程序 使 用 git clone、git commit 或 git pusnh 等 几 十 个 单独 的 命令 。 每 个 命 
令 都 有 独特 的 参数 解析 要 求 。 可 以 使 用 argparse 创建 这 些 命令 的 复杂 层次 结构 以 及 这 些 命令 独 有 的 
参数 集 。 
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5.5.4 ”补充 知识 


我 们 可 以 处 理 哪 些 种 类 的 参数 ?常用 的 参数 样式 有 很 多 种 ， 这 些 参 数 样 式 都 是 使 用 parser 的 
add_argument () 方 法 定义 的 。 

口 简单 选项 : 通常 使 用 -o 或 --option 参数 来 启用 或 禁用 程序 的 功能 。 通 常用 add_argument () 
的 action='store_true'，default=False 参数 实现 。 有 时 如 果 应 用 程序 使 用 action= 
'store_false'，default=True， 则 实现 会 更 简单 。 默 认 值 和 存储 值 的 选择 可 以 简化 程序 
设计 ， 但 不 会 改变 用 户 的 体验 。 

口 使 用 复杂 对 象 的 简单 选项 : 用 户 可 以 视 其 为 简单 的 -o 或 --option 参数 。 我 们 可 能 想 使 用 一 
个 更 复杂 的 对 和 象 来 实现 ， 而 不 是 一 个 简单 的 布尔 常量 。 可 以 使 用 action='store_const '， 
const=some_object，default=another_object。 由 于 模块 、 类 和 和气 数 也 是 对 象 ， 因 此 
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可 以 使 用 很 多 先进 的 技术 。 














口 带 值 的 选项 : 显示 -r unit 为 一 个 参数 ， 它 接受 要 使 用 的 单元 的 字符 串 名 称 。 可 以 通过 
action='store' 存 储 用 户 提供 的 字符 串 值 ,还 可 以 使 用 type=function 选项 来 提供 验证 输 





























入 或 转换 输入 的 函数 。 























口 增加 计数 器 的 选项 : 一 种 常见 的 技术 是 使 调试 日 志 具 有 多 个 细节 级 别 。 可 以 使 用 action= 
'count', default=0 计算 给 定 参数 的 出 现 次 数 。 用 户 可 以 为 详细 的 输出 提供 = 参数 ， 为 











非常 详细 的 输出 提供 -vv 参数 。 参 数 
从 初始 值 0 增加 到 2。 
口 累积 列表 的 选项 : 这 种 选项 用 于 一 个 



































解析 器 将 -vv 参数 视 为 -v 的 两 个 实例 ， 这 意味 着 值 将 























用 户 提供 多 个 值 的 情况 。 例 如 ， 当 我 们 提供 了 一 个 距离 

















值 列表 , 并 将 参数 定义 为 action='append'， default=[] 时 ,用 户 就 可 以 使 用 -r NM -r KM， 





同时 以 海里 和 公里 为 单位 显示 结果 。 当 然 ，display () 函数 需要 进行 重大 修改 来 处 理 集合 中 





的 多 种 单位 。 



































口 显示 帮助 文本 : 如 果 什 么 也 不 做 ,那么 -h 和 --help 将 显示 帮助 消息 并 退出 。 这 种 选项 将 为 















































用 户 提供 有 用 的 信息 。 如 果 需 要 ， 可 以 禁用 该 参数 或 更 改 参数 字符 串 。 因 为 这 种 方案 是 一 种 
广泛 使 用 的 惯例 ， 所 以 最 好 不 要 做 任何 更 改 。 
口 显示 版 本 号 : 通常 使 用 --version 参数 显示 版 本 号 并 退出 。 我 们 使 用 adg_argument 












































("--Version", action="version 





























"，version="v 3.14") 来 实现 这 种 选项 。 我 们 提供 了 


一 个 动作 version 和 一 个 设置 显示 版 本 的 附加 关键 字 参 数 。 
上 述 列表 涵盖 了 命令 行 参数 处 理 的 大 多 数 常 见 情况 。 一 般 来 说 ,在 编写 应 用 程序 时 ,我 们 将 尝试 























利用 这 些 常 见 的 参数 样式 。 如 果 使 用 简单 的 、 
序 的 工作 原理 。 



































广泛 使 用 的 参数 样式 ,那么 用 户 将 更 有 可 能 了 解 应 用 程 
































有 些 Linux 命令 具有 很 复杂 的 命令 行 语法 。 有 些 Linux 程序 具有 argparse 难以 处 理 的 参数 ， 比 


























如 fingd 或 者 expr。 对 于 这 些 极端 情况 ,需要 直接 使 用 sys .argv 值 来 编写 自 定义 的 解析 器 。 





5.5.5 ”延伸 阅读 








D 53 节 介绍 了 获取 交互 式 用 户 输入 的 方法 。 
口 5.7 节 将 介绍 一 种 增加 本 实例 灵活 性 的 方法 。 





5.6 ”使 用 cma 模块 创建 命令 行 应 用 程序 


创建 交互 式 应 用 程序 的 方法 有 很 多 种 。5.3 节 介 绍 了 input () 图 数 和 getpass.getpass () 函数 。 


























5.5 节 展 示 了 使 用 argparse 创建 用 户 与 操作 系统 命令 行 交 互 的 应 用 程序 的 方法 。 



































使 用 cma 模块 是 创建 交互 式 应 用 程序 的 男 一 种 方法 。cma 模块 将 提示 用 户 输入 , 然后 调用 我 们 提 














供 的 类 的 特定 方法 。 





这 种 方法 使 用 了 第 7 章 中 的 内 容 。 我 们 将 在 类 定义 中 添加 功能 ， 来 创建 一 个 唯一 的 子 类 。 
交互 过 程 如 下 所 示 ， 我 们 已 经 把 用 户 输入 标记 为 类 似 "help" 的 样式 。 
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Starting with 100 
Roulette> help 


Documented commands (type help <topic>) : 


done spin stake 
Roulette> help bet 
Bet <name> <amount> 
Name is one of even, odd, red, black, high, or low 


Roulette> bet black 1 
Roulette> bet even 1 
Roulette> spin 
Spin ('21', {'red', 'high', 'odd'}) 
Lose even 
Lose black 
. more interaction ... 
Roulette> done 
Ending with 93 


上 述 内 容 是 一 段 应 用 程序 的 介绍 性 信息 。 它 显示 了 玩家 的 起 始 赌 本 , 也 就 是 玩家 必须 投注 的 金额 。 
应 用 程序 显示 了 提示 符 Roulette>。 然 后 用 户 可 以 输入 5 个 可 用 命令 中 的 任意 一 个 。 

当 输入 help 命令 时 ， 将 显示 所 有 可 用 命令 。 只 有 2 个 命令 有 文档 ， 其 余 3 个 命令 没有 更 多 有 用 
的 细节 信息 。 

当 输入 help bet 时 , 将 显示 bet 命令 的 详细 文档 。 此 文档 说 明 可 以 提供 6 个 可 选 的 下 注 名 称 
的 其 中 一 个 名 称 和 一 个 下 注 金 额 。 

接着 我 们 创建 了 2 个 投注 一 plack 1 和 even 1， 然 后 输入 spin 命令 来 旋转 轮 盘 。 获 胜 的 结 
果 为 21 (red、high 或 odd )。 我 们 的 2 个 投注 都 输 了 。 

本 示例 省 略 了 一 些 互动 。 当 输入 done 命令 时 ， 显 示 了 最 终 的 赌 本 。 如 果 更 详细 地 模拟 ， 则 可 以 
显示 关于 掷 货 子 次 数 、 赢 和 输 的 汇总 统计 数据 。 


5.6.1 准备 工作 


cmdg.cma 应 用 的 核心 功能 是 “ 读 取 - 求 值 - 输 出 ”循环 。 在 具有 大 量 的 单独 状态 变化 以 及 大 量 的 命 
令 使 这 些 状态 发 生变 化 时 ， 这 种 应 用 程序 运行 良好 。 

本 实例 将 模拟 轮 盘 赌 的 一 个 子 集 作 为 一 个 简单 的 示例 。 该 示例 允许 用 户 创建 一 个 或 多 个 投注 ， 然 
后 旋转 模拟 的 轮 盘 赌 轮 。 虽 然 真正 的 轮 盘 赌 的 投注 类 型 令 人 眼花 绑 乱 ， 但 是 本 实例 只 关注 以 下 6 种 : 
口 red, black 
口 even, odd 
口 high, low 
一 个 美式 轮 盘 财 轮 有 38 个 箱子 。 数 字 从 1 到 36 的 箱子 为 红色 (red ) 和 黑色 (black )。 还 有 另外 
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2 个 都 是 绿色 的 箱子 一 一 0 和 双 0。 这 2 个 额外 的 箱子 被 定义 为 既 不 是 偶数 ( even ) 也 不 是 奇数 (odd )， 
既 不 高 (high ) 也 不 低 (low )。 只 有 少数 儿 种 方式 可 以 押 注 0， 押 注 数字 的 方式 有 很 多 种 。 

我 们 将 使 用 一 些 辅 助 函数 来 表示 轮 盘 赌 轮 ， 这 些 函 数 构建 了 一 个 箱子 集合 。 每 个 箱子 都 有 一 个 显 
示 箱 子 数字 和 一 组 获胜 的 下 注 名 称 的 字符 串 。 

可 以 用 一 些 简单 的 规则 来 定义 一 个 通用 箱子 ， 以 确定 哪些 投注 在 获胜 的 集合 中 。 


re Din c= (L, 3 Br Ta. "D2 dy ,L606y. "18, 
Zs 3 ZE DI DB BO BZ Bs:6) 



































def roulette bin(i): 
return str(i), { 
'even' if i%2 == 0 else 'odd', 
'Jow' if 1 <= i < 19 else 'high', 
'red' if i in red bins else 'black' 


} 
roulette_pbin() 函数 返回 一 个 二 元 组 ， 其 中 包含 箱子 编号 的 字符 串 表示 和 一 组 获胜 的 投注 名 称 。 
0 和 00 需要 使 用 不 同 的 函数 。 


def zero_bin(): 
return '0', set({() 



































def zerozero_bin(): 
return '00', set() 


zero_bin() 函数 返回 箱子 编号 的 字符 串 和 一 个 空 集 。zerozero_bin () 函数 返回 一 个 显示 为 00 
的 特殊 字符 串 ， 以 及 表示 没有 一 个 定义 的 投注 获胜 的 空 集 。 

可 以 组 合 这 3 个 函数 的 结果 来 创建 一 个 完整 的 轮 盘 财 轮 。 整 个 转 轮 将 被 建 模 为 一 个 元 素 为 箱子 元 
组 的 列表 。 


























def wheel () : 
BOms: FzeroeBri(}] 
b00 = [zerozero_bin()] 
Bl 236,. 三“ 


roulette pbin(i) for i in range(1,37) 
] 
return b0O+b00+b1_36 


我 们 构建 了 一 个 简单 的 列表 ， 其 中 包含 整个 箱子 集合 : 0、 双 0， 以 及 从 1 到 36 的 数字 。 现 在 可 
以 使 用 *andom. choice () 函数 随机 选择 一 个 箱子 。 这 个 箱子 将 说 明 哪些 投注 获胜 了 , 哪些 投注 输 了 。 


5.6.2 ”实战 演练 
(1) 导入 cma 模块 。 


import cmd 


(2) 定义 一 个 cmqd .cma 的 扩展 。 


class Roulette (cmd.Cmd): 
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(3) 定义 preloop () 方 法 中 所 需 的 初始 化 。 


def preloop (self): 
self.bets = {} 
self.stake 100 
self.wheel wheel () 


preloop () 方 法 只 在 处 理 过 程 开 始 时 执行 一 次 , 用 于 初始 化 投注 和 玩家 赌 本 的 一 个 字典 。 我 们 还 
创建 了 一 个 轮 盘 集合 的 实例 。self 参数 是 类 的 方法 的 基本 要 求 ， 这 是 一 个 简单 的 必需 语法 。 第 6 章 
将 更 加 详细 地 研究 这 些 内 容 。 

请 注意 ， 该 方法 在 class 语句 中 是 缩 进 的 。 

还 可 以 在 _init__() 方 法 中 初始 化 ,但 是 这 种 方法 有 些 复 杂 ， 这 是 因为 必须 使 用 super () 来 
保 cma 类 的 初始 化 是 首先 完成 的 。 

(4) 为 每 个 命令 创建 一 个 do_command () 方 法 。 方 法 的 名 称 是 以 ao_ 为 前 缀 的 命令 名 称 。 命 令 之 
后 的 用 户 输入 文本 将 作为 方法 的 参数 值 。bet 命令 和 spin 命令 的 示例 如 下 。 


def do_bet (self, arg_string): 
pass 

def do_spin(self, arg_string): 
pass 


(5) 解析 并 验证 每 个 命令 的 参数 。 命 令 后 面 的 用 户 输入 将 作为 方法 的 第 一 个 位 置 参 数 的 值 。 

如 果 参 数 无 效 ， 那 么 此 方法 将 打印 消息 并 返回 。 如 果 参 数 有 效 ， 此 方法 则 会 继续 进行 验证 步骤 。 

在 本 例 中 ，spin 命令 不 需要 任何 输入 。 我 们 可 以 忽略 参数 字符 串 。 为 了 使 程序 更 加 完善 ， 如 果 
字符 串 不 为 空 ， 则 应 该 显示 一 个 错误 。 

但 是 ，bet 命令 有 一 个 投注 参数 ， 而 且 必 须 是 6 个 有 效 的 投注 名 称 之 一 。 我 们 可 能 想 检查 重复 的 
投注 以 及 缩写 的 投注 名 称 。6 个 投注 都 有 一 个 独特 的 首 字母 。 

作为 延伸 , 投注 也 可 以 有 一 个 数额 。1.7 节 介 绍 了 解析 字符 串 的 方法 。 本 例 将 简单 地 处 理 投注 名 称 。 


def do_spin(self, arg_string): 
if len(self.bets) == 
print ("No bets have been placed") 
return 


# 主流 程 ， 更 多 处 理应 当 放 在 这 里 


































































































BET_NAMES = set(['even', 'odd', 'high', 'low', 'red', 'black']) 


def do_bet (self, arg_string): 
if arg_string not in BET_ NAMES : 
print("{0} is not a valid bet".format (arg_string)) 
return 
# 主流 程 ， 更 多 处 理应 当 放 在 这 里 
(6) 为 每 个 命令 编写 主流 程 (happy path ) 处 理 。 在 本 例 中 ，spin 命令 将 解析 投注 。bet 命令 将 
累积 男 一 个 投注 。do_bet () 方 法 的 主流 程 如 下 。 


self.bets[arg_string] = 1 


我 们 将 用 户 的 投注 以 及 投注 数额 添加 到 了 self .bets 映射 中 。 本 例 把 所 有 的 投注 都 视 为 具有 相 
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同 的 最 小 数额 。 
(7) 处 理 所 有 投注 的 ao_spin () 方 法 的 主流 程 如 下 。 
self.spin = random.choice(self.wheel) 
print ("Spin", self.spin) 
label, winners = self.spin 
for b in self.bets: 
if b in winners: 
self.stake += self.bets[b] 
BTint(" Win DB) 
else: 
self.stake -= self.bets[b] 
print ("Lose", b) 
self.bets= {} 


首先 ， 我们 旋转 赌 轮 获 得 了 一 个 获胜 的 投注 。 然 后 ,检查 了 每 个 玩家 的 投注 ， 看 看 哪些 匹配 获胜 
的 投注 组 合 。 如 果 玩 家 的 投注 b 在 获胜 的 投注 集合 中 ,那么 我 们 将 增加 他 们 的 赌 本 。 否 则 , 减少 他 们 
的 赌 本 。 

本 例 中 所 有 投注 的 赔 率 均 为 1 : 1。 如果 想 将 本 例 扩展 到 其 他 类 型 的 投注 , 则 必须 为 各 种 投注 提供 
适当 的 赔 率 。 

(8) 编写 主 脚本 。 创 建 一 个 Roulette 类 的 实例 并 执行 cmdloop () 方 法 。 


让 下 name EE: 人 a 半 认 
r = Roulette!) 
r.cmdloop() 


我 们 创建 了 一 个 Roulette 类 的 实例 ，Roulette 类 是 cma 类 的 子 类 。 当 执行 cmdloop () 方 法 
时 ， 该 类 将 写 人 已 提供 的 介绍 性 消息 ， 然 后 写 人 提示 符 ， 再 读 取 命令 。 



















































































5.6.3 ”工作 原理 


cmd 模块 包含 大 量 内 置 功能 ， 可 用 于 显示 提示 符 ， 从 用 户 读 取 输 入 ， 然 后 根据 用 户 的 输入 找到 适 
当 的 方法 。 

例如 ， 当 输入 bet black 时 ， 超 类 cma 的 内 置 方法 将 从 输入 中 剥离 第 一 个 单词 pet ， 并 添加 前 
绥 do_， 然 后 执行 实现 命令 的 方法 。 

如 果 没 有 do_bet () 方 法 ， 则 命令 处 理 器 会 写 人 一 个 错误 消息 。 这 是 自动 完成 的 ， 根 本 不 需要 编 
写 任何 代码 。 

由 于 我 们 编写 了 一 个 ao_bet () 方 法 ， 因 此 该 方法 将 被 调用 。 在 本 例 中 ，black 命令 之 后 的 文本 
将 作为 位 置 参数 值 。 

某 些 方法 已 经 是 应 用 程序 的 一 部 分 ， 例 如 ao_help () 。 这 些 方法 将 汇总 其 他 ao_* 方法 。 当 其 
中 一 个 方法 包含 文档 字符 串 时 ， 这 些 文档 字符 串 可 以 通过 内 置 的 帮助 功能 来 显示 。 

cmqd 类 依赖 于 Python 的 自省 功能 。 该 类 的 实例 可 以 检查 方法 名 称 ， 来 查找 所 有 以 ao 开头 的 方 
法 。 它 们 在 类 级 的 _ qict_ 属性 中 可 用 。 自 省 (introspection ) 是 一 个 高 级 主题 ， 第 7 章 将 讨论 一 个 
相关 的 话题 。 
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5.6.4 补充 知识 


cma 类 还 有 其 他 一 些 可 以 添加 交互 功能 的 方法 。 

口 可 以 定义 help_* () 方 法 ,使 其 成 为 繁杂 的 帮助 主题 的 一 部 分 。 

口 当 qo_* 方法 返回 值 时 ， 循环 将 终止 。 可 以 添加 一 个 以 return True 作为 方法 代码 的 

do_quit () 方 法 。 该 方法 将 结束 命令 处 理 循环 。 

口 可 以 提供 名 为 smptyline () 的 方法 来 响应 空白 行 。 一 种 选择 就 是 什么 也 不 做 ， 另 一 种 常见 的 

选择 是 在 用 户 不 输入 命令 时 执行 默认 操作 。 

口 当 用 户 的 输入 与 所 有 do_* 方法 都 不 匹配 时 ， 执 行 sefault () 方 法 。 这 种 功能 可 以 用 于 更 高 

级 的 输入 解析 。 

口 可 以 使 用 postloop () 方 法 在 循环 完成 后 进行 一 些 处 理 。 这 将 是 编写 摘要 的 好 地 方 。 这 种 功能 
也 需要 返回 非 False 值 的 do_* 方法 来 结束 命令 循环 。 

另外 ，cmag 类 还 有 许多 属性 可 以 设置 。 这 些 属性 是 与 方法 定义 同 级 的 类 级 变量 。 

口 prompt 属性 是 提示 输入 的 提示 符 字 符 串 ， 示 例如 下 。 


class Roulettel(cmd.Cmd): 
prompt="Roulette> " 


口 intro 属性 是 介绍 性 消息 。 
口 可 以 通过 设置 doc_header、undoc_header、misc_header 和 ruler 属性 来 定制 帮助 输出 。 
这 些 属性 都 会 改变 帮助 输出 的 外 观 。 
我 们 的 目标 是 能 够 创建 一 个 整洁 (tidy ) 的 类 ， 以 简单 灵活 的 方式 处 理 用 户 交 互 。 该 类 创建 了 一 个 与 
Python 的 REPL 有 很 多 相同 功能 的 应 用 程序 ， 它 还 具有 与 许多 提示 用 户 输 入 的 命令 行程 序 相同 的 功能 。 
Linux 中 的 命令 行 FTP 客户 端 是 交互 式 应 用 程序 的 一 个 典型 示例 ， 它 有 一 个 ftp> 提示 符 ， 能 够 
解析 几 十 个 单独 的 FTP 命令 。 输 入 help 将 显示 作为 FTP 交互 的 一 部 分 的 所 有 内 部 命令 。 




























































































































































































5.6.5 ”延伸 阅读 


口 第 6 章 和 第 7 章 将 介绍 类 的 定义 。 


5.7 ”使 用 操作 系统 环境 设置 


用 户 输入 的 时 间 跨 度 有 很 多 种 。 
口 交互 数据 : 由 用 户 以 当前 时 间 跨 度 提供 。 
口 程序 启动 时 提供 的 命令 行 参 数 ， 这些 值 通常 贯穿 于 程序 的 一 个 完整 的 执行 过 程 。 
口 在 操作 系统 级 设置 的 环境 变量 : 可 以 在 命令 行 中 设置 ， 这 样 就 与 启动 应 用 程序 的 命令 一 样 具 
有 交互 性 。 
图 以 .bashrc 文件 或 .profile 文件 形式 配置 。 这 种 方法 比 在 命令 行 中 设置 更 持久 , 但 是 交 
互 性 稍 差 。 
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5.7. 

















国 在 Windows 中 ， 有 一 些 高 级 设置 (advanced setting ) 选项 允许 设置 长 期 配置 。 这些 设置 通常 

用 于 程序 需要 多 次 执行 的 输入 。 

口 配置 文件 设置 : 因应 用 程序 而 异 。 这 种 方法 通过 编辑 一 个 文件 ， 使 这 些 选 项 或 参数 可 以 长 时 
间 使 用 。 

这 些 设 置 适用 于 多 个 用 户 ， 甚 至 适用 于 所 有 用 户 。 配 置 文件 通常 具有 最 长 的 时 间 跨 度 。 

5.5 节 和 5.6 节 介 绍 了 用 户 的 交互 。 5.5 节 介 绍 了 处 理 命令 行 参数 的 方法 。 第 13 章 将 介绍 配置 文件 。 

环境 变量 可 以 通过 os 模块 获得 。 如 何 根 据 这 些 操作 系统 级 的 设置 来 配置 应 用 程序 ? 


1 准备 工作 
我 们 可 外 E 希 望 通过 操作 系统 设置 向 程序 字 提 供 各 种 类 型 的 信息 。 但 是 ， 这 里 有 一 个 很 严重 的 局 限 : 













































































































































































操作 系统 设置 只 能 是 字符 串 值 。 这 意味 着 许多 类 型 的 设置 需要 某 些 代码 来 解析 值 ， 并 从 字符 串 中 创建 
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5.7. 























的 Python 对 象 。 
在 使 用 argparse 模块 解析 命令 行 参数 时 ， 该 模块 可 以 执行 一 些 数据 转换 。 在 使 用 os 模块 处 理 














变量 时 ， 必 须 自 定义 转换 。 
5.5 节 将 haversine () 函数 包装 在 一 个 解析 命令 行 参数 的 简单 应 用 程序 中 。 
在 操作 系统 级 别 ， 我 们 创建 了 一 个 程序 ， 如 下 所 示 : 


slott$ python3 ch05 r04.py - KM 36.12,-86.67 33.94,-118.40 
From (36.12, -86.67) to (33.94, -118.4) in KM = 2887.35 


使 用 应 用 程序 一 段 时 间 后 ,我们 发 现 ， 经常 需 要 使 用 海里 计算 船只 航行 的 距离 。 我 们 希望 为 其 中 
输入 点 以 及 -r 参数 设置 默认 值 。 

由 于 船只 可 以 停泊 的 位 置 非常 多 ， 因 此 需要 在 不 修改 实际 代码 的 情况 下 更 改 默 认 值 。 

我 们 将 设置 一 个 操作 系统 环境 变量 UNITS 来 代表 距离 单位 , 设置 男 一 个 变量 HOME_PORT 来 代表 
点 。 我 们 希望 能 够 实现 以 下 操作 : 


slotts$ UNITS=NM 

slott$ HOME PORT=36.842952,-76.300171 

Slotts$ python3 ch05 r06.py 36.12,-86.67 

From 36.12,-86.67 to 36.842952,-76.300171 in NM = 502.23 


单位 和 起 始点 的 值 通过 操作 系统 环境 提供 给 应 用 程序 。 这 些 值 可 以 在 配置 文件 中 设置 ， 以 便 我 们 
简单 的 更 改 。 这 些 值 也 可 以 手动 设置 ， 如 示例 所 示 。 

2 ”实战 演练 

(1) 导入 os 模块 。 通 过 该 模块 可 以 使 用 操作 系统 环境 。 


import os 


(2) 导入 应 用 程序 所 需 的 其 他 类 或 对 象 。 


from ch03_r05 import haversine, MI, NM, KM 
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(3) 定义 一 个 函数 ， 这 个 函数 将 使 用 环境 值 作为 可 选 命令 行 参数 的 默认 值 。 需 要 解析 的 默认 参数 
集 来 自 sys .argv， 因 此 ， 导 入 sys 模块 也 非常 重要 。 


def get_options (argv=sys .argv): 


(4) 从 操作 系统 环境 设置 收集 默认 值 ， 包 括 必要 的 验证 。 


default_units = os.environ.get ('UNITS', 'KM') 
if default_ units not in ('KM', 'NM', 'MI'): 

sys.exit ("Invalid value for UNITS, not KM, NM, or MI") 
default_home port = os.environ.get ('HOME_ PORT') 


sys .exit () 函数 很 好 地 进行 了 错误 处 理 。 它 将 打印 消息 并 以 非 零 状态 退出 。 
(5) 创建 parser 属性 。 为 相关 参数 提供 默认 值 。 该 步骤 依赖 于 argparse 模块 ， 因 此 也 必须 导 
入 argparse 模块 。 



































parser = argparse.ArgumentParser () 

parser.add_argument ('-r', action='store', 
choices=('NM', 'MI', 'KM'), default=default_units) 

parser.add argument ('pl', action='store', type=point_type) 

parser.add argument ('p2', nargs='?', action='store', type=point_type, 
default=default_home_port) 

options = parser.parse_args (argv[1:]) 

(6) 进行 其 他 验证 ， 确 保 正 确 设置 参数 。 在 本 例 中 ，HOME_PORT 可 能 没有 值 ， 也 可 能 没有 为 第 二 

个 命令 行 参数 提供 任何 值 。 该 步骤 需要 使 用 if 语句 并 调用 sys .exit ()。 


if options.p2 is None : 
sys.exit ("Neither HOME_PORT nor p2 argument provided.") 


(7) 返回 包含 有 效 参 数 集 的 opt ions 对 象 。 

return options 

-r 参数 和 第 二 个 点 是 完全 可 选 的 。 如 果 在 命令 行 中 省 略 这 些 值 , 则 参数 解析 器 将 使 用 配置 信息 来 
提供 默认 值 。 

5.5 节 介 绍 了 处 理 get_options () 函数 创建 的 选项 的 方法 。 



























































5.7.3 工作 原理 


我 们 使 用 操作 系统 环境 变量 创建 了 可 以 被 命令 行 参数 覆盖 的 默认 值 。 如 果 设 置 了 环境 变量 ,那么 
环境 变量 将 作为 参数 定义 的 默认 值 。 如 果 没 有 设置 环境 变量 ， 则 使 用 应 用 程序 级 的 默认 值 。 
在 UNITS 变量 的 实例 中 ， 应 用 程序 使 用 公里 作为 默认 值 ， 如 果 不 是 ， 则 设置 操作 系统 环境 变量 。 
这 个 过 程 有 三 层 交 互 。 
口 可 以 在 .bashrc 文件 中 定义 一 个 设置 。 或者， 使 用 Windows 高 级 设置 选项 进行 持久 性 更 改 ， 
该 值 将 在 每 次 登录 或 创建 新 的 命令 窗口 时 使 用 。 
口 可 以 在 命令 行 上 交互 地 设置 操作 系统 环境 。 只 要 会 话 持 续 ， 环 境 变 量 的 值 将 持续 下 去 。 当 注 
销 或 关闭 命令 窗口 时 ,环境 变量 的 值 将 丢失 。 
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口 每 次 运行 程序 时 ， 可 以 通过 命令 行 参数 提供 唯一 的 值 。 

请 注意 , 没有 针对 从 环境 变量 得 到 的 值 的 内 置 验证 或 自动 验证 。 我 们 需要 验证 这 些 字符 串 ， 确保 
它们 有 意义 

男 外 请 注意 ,我 们 在 多 个 地 方 重复 了 有 效 单位 的 列表 。 这 违反 了 DRY ( Don’t Repeat Yourself ) 原 
则 。 使 用 该 列表 的 全 局 变量 是 一 个 很 好 的 改进 。 












































5.7.4 补充 知识 


5.5 节 展 示 了 处 理 来 自 sys .argv 的 默认 命令 行 参 数 的 方法 。 第 一 个 参数 是 正在 执行 的 Python 应 
用 程序 的 名 称 ， 通 常 与 参数 解析 无 关 。 
sys .argv 的 值 是 一 个 字符 串 列表 ， 如 下 所 示 : 
['ch05_r06.py', '-r', 'NM', '36.12,-86.67'] 
我 们 必须 在 处 理 sys .argv[0] 的 过程 中 跳 过 初始 值 。 跳 过 初始 值 的 时 机 有 两 个 选择 。 
口 在 本 实例 中 ， 我 们 在 解析 过 程 中 尽 可 能 晚 地 丢弃 多 余 的 元 素 。 在 把 sys .argv1[1:] 提 供给 解 
析 器 时 ， 跳 过 了 第 一 个 元 素 。 
口 在 前 面 的 例子 中 ， 我 们 在 处 理 过 程 中 较 早 地 丢弃 了 初始 值 。main () 函数 使 用 了 options = 
get_options (sys.argv[1:]) 为 解析 需 提 供 较 短 的 列表 。 
通常 ， 这 两 种 方法 之 间 唯 一 相关 的 区 别 在 于 单元 测试 的 数量 和 复杂 性 。 本 实例 需要 一 个 包含 初始 
参数 字符 串 的 单元 测试 ， 该 字符 串 将 在 解析 过 程 中 丢弃 。 






















































































5.7.5 延伸 阅读 
口 第 13 章 将 介绍 多 种 处 理 配 置 文件 的 方法 。 








第 6 章 


类 和 对 象 的 基础 知识 








本 章 主 要 介绍 以 下 实例 。 

口 使 用 类 封装 数据 和 操作 

口 设计 操作 类 

口 设计 数据 类 

口 使 用 _slots_ 优 化 对 象 

口 使 用 更 复杂 的 集合 

口 扩展 集合 统计 数据 的 列表 
口 使 用 特性 计算 惰性 属性 
口 使 用 可 设置 的 特性 更 新 及 早 属 性 












































6.1 引言 


计算 的 目的 是 处 理 数据 。 即使 是 在 构建 交互 式 游戏 的 过 程 中 , 游戏 状态 和 玩家 的 行为 也 都 是 数据 ， 
处 理 过 程 计 算 下 一 个 游戏 状态 和 显示 更 新 。 

某 些 游戏 可 能 具有 比较 复杂 的 内 部 状态 。 例 如 ,具有 多 个 玩家 和 复杂 图 形 的 控制 台 游戏 就 会 出 现 
复杂 的 实时 状态 变化 。 

像 Craps 这 样 的 赌场 游戏 ， 其 游戏 状态 则 非常 简单 。 游 戏 可 能 没有 建立 点 数 ， 也 可 能 建立 了 值 是 
4、5、6、8、9 或 10 其 中 一 个 的 点 数 。 转 换 相对 简单 ， 并 且 通 常用 赌 桌 上 的 移动 标记 和 筹码 来 表示 。 
数据 包括 游戏 的 当前 状态 、 玩 家 动作 和 掷 仍 子 。 处 理 过 程 就 是 游戏 的 规则 。 

像 二 十 一 点 这 样 的 游戏 ,在 收 到 每 张 牌 时 会 有 更 加 复杂 的 内 部 状态 变化 。 在 手 牌 可 以 拆 分 的 游戏 
中 ， 游 戏 的 状态 会 变 得 相当 复杂 。 数 据 包括 游戏 的 当前 状态 、 玩 家 的 命令 和 从 牌 堆 中 发 出 来 的 牌 。 处 
理由 游戏 规则 定义 ,但 是 每 家 赌场 都 可 以 修改 规则 。 

在 Craps 游戏 中 ， 玩 家 可 以 投注 。 有 趣 的 是 ， 玩 家 的 输入 对 游戏 状态 没有 影响 。 游 戏 对 象 的 内 部 
状态 完全 由 下 一 次 掷 出 的 骨 子 决定 。 在 这 种 情况 下 ， 类 设计 很 容易 可 视 化 。 

本 章 将 创建 实现 多 个 统计 公式 的 类 。 一 说 起 统计 公式 ， 可 能 有 点 令 人 生 旦 。 不 过 几乎 所 有 统计 都 
基于 一 系列 值 的 总 和 ， 通 常 显示 为 > x 。 在 许多 情况 下 ， 这 可 以 使 用 Python 的 sum ( ) 函数 实现 。 
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6.2 ”使 用 类 封装 数据 和 操作 














计算 的 基本 思想 是 处 理 数据 。 这 一 点 在 我 们 编写 处 理 数 据 的 函数 时 已 





的 相关 知识 。 


我 们 通常 希望 有 大 量 密切 相关 的 函数 适用 于 一 种 常见 的 数据 结构 。 这 个 概念 是 面向 对 象 编 





心 。 类 定义 会 包含 许多 方法 ， 这 些 方法 控制 对 象 的 内 部 状态 。 
































经 证 实 。 第 3 章 介 绍 了 函数 


程 的 核 


类 定义 背后 的 统一 概念 通常 被 视 为 分 配给 类 的 职责 的 总 结 。 如 何 有 效 地 实现 这 种 概念 ? 如 何 设 














计 类 ? 
6.2.1 准备 工作 








本 实例 主要 讨论 一 个 简单 的 有 状态 对 象 一 一 一 对 仍 子 ， 相 应 的 情景 是 一 个 模拟 赌场 游戏 Craps 的 
应 用 程序 。 目 标 是 使 用 模拟 结果 来 帮助 创造 更 好 的 游戏 策略 。 这 样 在 我 们 尝试 削弱 庄家 优势 时 ， 才 不 























会 失去 真正 的 金钱 。 








类 的 定义 和 类 的 实例 之 间 有 一 个 重要 区 别 ， 叫 作对 象 ( object )。 这 种 思想 也 叫 作 面向 对 象 编程 








( object-oriented programming )。 本 实例 重点 关注 编写 类 定义 。 
的 协作 中 产生 的 行为 是 设计 过 程 的 总 体 目标 。 
































整个 应 用 程序 将 创建 类 的 实例 。 





大 多 数 设计 工作 都 集中 在 类 定义 上 。 因 此 ， 名 称 “面向 对 象 编程 ”可 能 会 造成 误导 。 
突现 行为 (emergent behavior ) 是 面向 对 象 编程 的 重要 组 成 部 分 。 二 生生 人 定 程 序 的 每 个 行 
为 ， 而 是 把 程序 分 解 为 对 象 ， 并 通过 对 象 的 类 来 定义 对 象 的 状态 和 行为 。 可 以 根据 职责 和 协作 将 程序 



































设计 分 解 为 类 定义 。 














从 实例 




















对 象 应 该 被 看 作 事 物 一 一 名 词 。 类 的 行为 应 该 被 看 作 动 词 。 这 对 应 当 如 何 设计 有 效 . 





了 提示 。 





















































- 作 的 类 给 出 


在 涉及 有 形 的 现实 世界 的 事物 时 ， 面 向 对 象 的 设计 通常 是 最 容易 理解 的 。 编 写 模 拟 纸牌 游戏 的 软 
件 通 常 比 创建 实现 抽象 数据 类 型 ( abstract data type，ADT ) 的 软件 更 容易 。 


本 实例 将 模拟 掷 怠 子 。 某 些 游戏 使 用 两 个 仍 子 ， 比 如 赌场 游戏 Craps。 因 此 ， 需 要 定义 一 个 对 一 





对 货 子 建 模 的 类 。 为 了 使 示例 更 加 生动 具体 ， 本 实例 将 在 模拟 赌场 游戏 的 情 





6.2.2 ”实战 演练 


(1) 用 简单 的 语句 描述 类 实例 的 功能 ， 可 以 称 之 为 问题 陈述 。 着 重 使 用 





口 Craps 游戏 有 两 个 标准 骨 子 。 

口 每 个 仍 子 有 6 个 面 ， 面 上 的 点 数 从 1 到 6。 

口 骨 子 由 玩家 掷 出 。 

口 两 个 角 子 的 总 点 数 会 改变 Craps 游戏 的 状态 。 然 而 ， 




















Q@ 在 面向 对 象 编程 的 概念 中 一 般 用 “封装 ”( encapsulate ), 但 是 Python 里 一 般 用 “包装 ”( wrap )。 这 里 用 















































这 些 规则 与 角子 是 分 离 的 。 


















































对 于 已 经 学 习 过 面向 对 象 概念 的 读者 来 说 可 能 有 点 别扭 。 一 一 译 者 注 











景 中 为 一 对 山子 建 模 。 


短 句 ， 强 调 名 词 和 动词 。 
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口 如 果 两 个 骨 子 点 数 一 样 ， 那 么 这 个 数字 就 是 hard way。 如 果 两 个 骨 子 点 数 不 一 样 ， 那 么 这 个 
数字 就 是 easy way。 茶 些 赌注 依赖 于 这 种 区 别 。 
(2) 识别 语句 中 的 所 有 名 词 。 名 词 可 以 识别 不 同类 的 对 象 ， 它 们 是 协作 者 ( collaborator )， 如 玩家 
和 游戏 。 名 词 也 可 以 识别 对 象 的 属性 ， 如 面 和 点 数 。 


(3) 识别 语句 中 的 所 有 动词 。 动 词 通常 是 类 的 方法 ， 如 搓 出 和 匹配 。 有 时 ， 它 们 是 其 他 类 的 方法 ， 
其 中 一 个 例子 就 是 改变 状态 ,适用 于 Craps 。 



























































(4) 识别 语句 中 的 所 有 形容 词 。 形 容 词 是 阐明 名 词 的 单词 或 短语 。 在 许多 情况 下 ， 某 些 形容 词 显 
然 是 对 象 的 属性 。 在 其 他 情况 下 , 形容 词 描述 对 象 之 间 的 关系 。 在 本 例 中 , 诸如 蜗 子 的 总 点 数 ( the total 

















of the dice ) 之 类 的 短语 是 介词 短语 充当 形容 词 的 一 个 例子 。 短 语 the total of 修饰 名 词 dice。 总 点 数 是 
一 对 般 子 的 属性 。 


(53) 用 < 











lass 语句 编写 类 。 


class Dice: 


(6) 在 init_ 方法 中 初始 化 对 象 的 属性 。 





def __init (self): 
self.faces = None 


我 们 将 使 用 self . faces 属性 对 帆 子 的 内 部 状态 建 模 。 需 要 用 变量 self 确保 我 们 引用 给 定 类 实 





例 的 属性 。 我 们 通过 实例 变量 self 的 值 来 标识 对 象 。 























我 们 也 可 以 在 这 里 添加 一 些 其 他 特性 。 另 一 种 选择 是 将 特性 实现 为 单独 的 方法 ，6.8 节 将 详细 说 
明 这 种 设计 决策 。 


(7) 根据 
口 实现 
def 


各 种 动词 定义 对 象 的 方法 。 在 本 例 中 ， 必 须 定义 的 方法 有 以 下 几 种 。 
玩家 措 般 子 的 方法 。 

roll(self): 

self.faces = (random.randint (1,6), random.randint (1,6)) 











我 们 通过 设置 self . faces 属性 更 新 了 骨 子 的 内 部 状态 。 同 样 ，self 变量 对 于 标识 待 更 新 的 对 
象 是 至 关 重要 的 。 

















这 个 方法 会 更 改 对 象 的 内 部 状态 。 我 们 选择 了 不 返回 值 。 这 使 得 我 们 的 方法 有 点 类 似 于 


Python 内 置 集合 类 的 方法 。 任 何 更 改 对 象 的 方法 都 不 会 返回 值 。 





口 计算 


def 











仍 子 总 点 数 的 方法 ， 该 方法 有 助 于 实现 通过 仍 子 的 总 点 数 改变 Craps 游戏 的 状态 。 


total (self): 
return sum(self.faces) 








下 面 两 种 方法 有 助 于 说 明 hard way 和 easy way 的 实际 意义 。 


def hardway (self): 


return Self.faces[0] == self.faces[1] 
def easyway (self): 
return self.faces[0] != self.faces[1] 


在 赌场 游戏 中 ， 具有 简单 相反 人 逻辑 的 规则 很 罕见 。 更 常见 的 情况 是 有 一 种 罕见 的 第 三 种 选择 ， 这 
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种 选择 的 收益 规则 非常 糟糕 。 在 本 例 中 ， 可 以 定义 easyway 返回 not self.hardway ()。 
使 用 该 类 的 示例 如 下 。 
(1) 首先 ， 为 随机 数 生成 器 设置 固定 的 种 子 值 ， 以 便 获 得 固定 的 结果 序列 。 这 是 为 该 类 创建 单元 
测试 的 一 种 方法 。 
>>> import random 
>>> random.seed(1) 


(2) 创建 一 个 Dice 对 象 a91。 然 后 可 以 使 用 rol1 () 方 法 设置 它 的 状态 。 接 着 ,通过 total () 方 
法 获得 骨 子 的 总 点 数 。 通 过 查看 faces 属性 检查 对 象 的 状态 。 


>>> from ch06_r01 import Dice 
>>> dl = Dice() 

>>> dl1.roll() 

>>> dl1.total() 

7 

>>> d1.faces 

(2，5) 


(3) 创建 第 二 个 Dice 对 象 92。 然 后 可 以 使 用 roll () 方 法 设置 它 的 状态 。 接 着 ， 获 得 total () 
方法 以 及 hardway () 方 法 的 结果 。 通 过 查看 faces 属性 检查 对 象 的 状态 。 


>>> d2 = Dice() 
>>> d2.roll() 
>>> d2.total() 

4 

>>> d2.hardway() 
False 

>>> d2.faces 

(1, 3) 


(4) 由 于 这 两 个 对 象 都 是 Dice 类 的 独立 实例 ， 因 此 修改 a2 不 影响 al。 


>>> dl1.total() 
2 





































































































6.2.3 工作 原理 


本 实例 的 核心 思想 是 使 用 常用 的 语法 规则 一 一 名 词 、 动 词 和 形容 词 一 一 来 识别 类 的 基本 特征 。 名 
词 代表 事物 。 良 好 的 描述 性 语句 应 该 重点 关注 有 形 的 现实 世界 的 事物 ， 而 不 是 想法 或 抽象 事物 。 

在 本 例 中 ， 找 子 是 真实 的 事物 。 我 们 试图 避免 使 用 抽象 术语 ， 比 如 随机 数 生成 器 或 事件 生成 器 。 
首先 描述 真实 事物 的 有 形 特 征 ， 然 后 找到 一 个 提供 有 形 特 征 的 抽象 实现 ， 这 样 设计 会 更 容易 一 些 。 
掷 货 子 是 可 使 用 方法 定义 进行 建 模 的 一 个 物理 动作 。 显 然 ， 这 个 动作 改变 了 对 象 的 状态 。 在 极 少 
数 情况 下 ( 1/36 的 概率 )， 下 一 个 状态 恰好 匹配 前 一 个 状态 。 

形容 词 常常 有 可 能 导致 混淆 。 关 于 形容 词 最 常见 用 法 的 描述 如 下 。 

口 某 些 形容 词 只 有 一 个 简单 的 解释 ， 比 如 第 一 、 最 后 、 最 少 、 最 多 、 下 一 个 、 前 一 个 ， 等 等 。 

这 些 形容 词 可 以 通过 惰性 ( lazy ) 实现 用 作 方 法 ,或 通过 及 时 ( eager ) 实现 用 作 属 性 值 。 
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口 某 些 形容 词 是 更 复杂 的 短语 , 例如 般 子 的 总 点 数 (thetotal of the dice ), 这 是 一 个 由 名 词 (total ) 

和 一 个 介词 (of ) 构建 的 形容 词 短语 。 这 些 短语 也 可 以 看 作 一 种 方法 或 属性 。 

口 某 些 形容 词 涉及 软件 中 其 他 地 方 出 现 的 名 词 。 例 如 Craps 游戏 的 状态 ( the state of the Craps 
game )， 其 中 state of 修饰 另 一 个 对 象 Craps。 这 显然 只 与 骨 子 本 身 相 关 。 这 些 词 反 映 了 山子 和 
游戏 之 间 的 关系 。 

口 我 们 可 以 在 问题 陈述 中 添加 一 个 语句 ， 比 如 仍 子 是 游戏 的 一 部 分 ( dice are part of the game )。 
这 有 助 于 说 明 游 戏 和 骨 子 之 间 存 在 一 种 关系 。 介 词 短语 ( 比如 are part of ) 总 是 可 以 倒 过 来 ， 
以 从 另 一 个 对 象 的 角度 来 创建 语句 ， 例 如 ， 游 戏 中 包含 蜗 子 (the game contains dice )。 这 有 助 
于 说 明 对 象 之 间 的 关系 。 

在 Python 中 ， 对 象 的 属性 默认 是 动态 的 。 我 们 不 指定 固定 的 属性 列表 ， 而 是 可 以 在 类 定义 的 

init _() 方 法 中 初始 化 一 些 或 全 部 属性 。 由 于 属性 不 是 静态 的 ， 因 此 我 们 的 设计 具有 很 大 的 灵 

活性 。 








































































































6.2.4 ”补充 知识 


捕获 必要 的 内 部 状态 和 导致 状态 变化 的 方法 是 良好 的 类 设计 的 第 一 步 。 我 们 可 以 使 用 首 字母 缩写 

S.O.L.1.D 来 总 结 一 些 有 用 的 设计 原则 。 

口 单一 职责 原则 ( Single Responsibility Principle ): 一 个 类 应 该 有 一 个 明确 定义 的 职责 。 

口 开 / 关 原 则 ( Open/Closed Principle ): 类 应 该 可 以 通过 继承 进行 扩展 , 但 不 可 修改 。 应 该 优化 类 

设计 ， 这 样 就 不 需要 修改 代码 来 添加 或 修改 功能 。 

口 里 氏 替 换 原则 (Liskov Substitution Principle ): 需要 设计 继承 ， 这 样 就 可 以 使 用 子 类 替代 超 类 。 

口 接口 隔离 原则 ( Interface Segregation Principle ): 在 编写 问题 陈述 时 ， 要 确保 协作 类 的 依赖 尽 可 

能 地 少 。 在 许多 情况 下 ， 依 据 该 原则 ， 通 常 要 将 大 问题 分 解 成 许多 小 的 类 定义 。 

口 依赖 性 反 转 原则 ( Dependency Inversion Principle ): 一 个 类 直接 依赖 其 他 类 是 不 理想 的 。 如 果 
一 个 类 依赖 于 一 个 抽象 ， 那 么 最 好 用 一 个 具体 的 实现 类 替换 抽象 类 。 

我 们 的 目标 是 创建 具有 正确 行为 并 且 遵 循 设 计 原 则 的 类 。 


6.2.5 延伸 阅读 


口 6.9 节 将 讨论 及 早 属性 和 惰性 特性 之 间 的 选择 。 
口 第 7 章 将 更 深入 地 研究 类 的 设计 方法 。 
口 第 11 章 将 讨论 如 何 为 类 编写 正确 的 单元 测试 。 


6.3 设计 操作 类 


在 大 多 数 情况 下 ， 对 象 包含 定义 其 内 部 状态 的 所 有 数据 ， 但 是 也 存在 例外 情况 。 在 某 些 情况 下 ， 
类 并 不 真正 需要 保存 数据 ， 而 是 用 于 保存 处 理 过 程 。 
统计 处 理 算法 是 这 种 设计 的 主要 示例 , 这 些 算法 通常 与 被 分 析 的 数据 分 离 。 数据 可 能 在 一 个 1ist 
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或 counter 对 象 中 ， 而 算法 可 能 是 一 个 单独 的 类 。 

当然 ,在 Python 中 ,这 种 处 理 通常 使 用 丽 数 实现 。 更 多 关于 函数 的 信息 ， 请 参阅 第 3 章 。 在 某 些 
语言 中 ， 所 有 代码 都 必须 采用 类 的 形式 ， 这 导致 了 额外 的 复杂 性 。 

如 何 设计 使 用 Python 复杂 内 置 集合 的 类 ? 


6.3. 


三 | 
AE， 
二 
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如 果 



































1 准备 工作 
































在 第 4 章 ， 特 别 是 4.7 节 中 ， 我 们 讨论 了 优惠 券 收 集 测试 这 种 统计 处 理 。 优 惠 券 收集 测试 的 思想 











券 之 前 ， 需 要 执行 多 少 次 处 理 





oy 














每 当 执 行 一 些 处 理 时 ， 就 保存 一 张 优惠 券 来 描述 该 处 理 的 某 个 方面 或 参数 。 那 么 在 收集 到 一 整套 

















如 果 根 据 购买 习惯 将 顾客 分 配 到 不 同 的 分 组 中 ,那么 在 每 组 都 有 顾客 之 前 ， 需 要 做 多 少 在 线 销 





如 果 这 些 分 组 的 大 小 相同 , 那么 


























很 容易 预测 在 获得 一 整套 优惠 券 之 前 , 我 们 遇 到 的 平均 顾客 数量 。 











这 些 分 组 的 大 小 不 同 ， 那 么 计算 收集 一 整套 优惠 券 预 计 所 需 的 时 间 会 比较 复杂 一 些 。 








假设 我 们 已 经 使 用 counter 对 











象 收集 了 数据 。 有 关 各 种 集合 的 详细 信息 ， 请 参阅 第 4 章 ， 特 别 





是 4.7 节 和 4.15 节 。 在 本 例 中 ,顾客 被 分 为 成 员 数 量 大 致 相同 的 8 个 类 别 。 数 据 如 下 所 示 : 


15 次 访问 出 现 了 7 次 ，17 次 访问 出 现 了 5 次 ， 这 是 一 个 长 尾 分 布 。 仅 有 一 次 ， 收 集 一 整套 8 张 优惠 


Counter((t LD Vy, L720 














六 





数据 中 的 键 是 获得 一 整套 优惠 券 所 需 的 访问 次 数 , 值 是 给 定 访问 次 数 出 现 的 次 数 。 在 上 述 数据 中 ， 


券 需要 45 次 访问 。 
我 们 想 计 算 counter 的 一 些 统计 数据 。 为 此 ， 总 体 策 略 有 以 下 两 种 。 














口 包装 (wrap ): 可 以 将 coun 























J 





口 扩展 (extend ): 可 以 扩展 counter 类 定义 来 添加 统计 处 理 。 其 复杂 性 因 引 入 的 处 理 类 型 而 有 
所 不 同 。6.7 节 和 第 7 章 将 详细 介绍 这 种 策略 。 





ter 对 象 包装 在 另 一 个 类 中 ， 仅 提供 我 们 需要 的 功能 。 这 种 策略 





经 常会 暴露 其 他 一 些 方法 ， 虽 然 这 些 方法 是 Python 的 重要 组 成 部 分 ， 但 是 对 于 我 们 的 应 用 程 
序 来 说 并 不 重要 。 第 7 章 将 详细 讨论 这 种 策略 。 














包装 策略 有 一 种 变 体 ， 它 使 用 统计 计算 对 象 包装 内 置 集合 中 的 对 象 。 这 是 一 种 优雅 的 包装 方案 。 








设计 处 理 的 方案 有 两 种 ， 对 于 两 种 架构 来 说 ， 它 们 都 适用 。 


























口 及 早 : 尽 可 能 早 地 计算 统计 数据 。 计 算得 到 的 值 随后 可 以 成 为 类 的 属性 。 虽 然 这 种 方案 可 以 
提高 性 能 ， 但 是 也 意味 着 对 数据 集合 的 任何 更 改 都 将 导致 原来 计算 得 到 的 值 无 效 。 必 须 检查 
整个 上 下 文 ， 确 定 是 否 会 发 生 这 种 情况 。 

口 惰性 : 直到 需要 时 ， 才 通过 方法 函数 或 特性 ( property ) 来 进行 计算 。6.8 节 将 详细 介绍 这 种 设 





























计 方 案 。 











这 两 种 设计 方案 的 基本 数学 原 到 





是 相同 的 ， 唯 一 的 区 别 在 于 执行 计算 的 时 间 。 


我 们 使 用 预期 值 的 总 和 来 计算 均值 。 预 期 值 等 于 值 乘 以 该 值 的 频率 。 均 值 /的 计算 公式 如 下 : 


HA=> fxk 
大 EC 
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其 中 大 是 来 自 counter (C ) 的 键 ,大 是 countez 中 给 定 键 的 频率 值 。 
标准 差 取决 于 均值 4。 计算 标准 差 时 还 需 计 算 所 有 值 的 总 和 ,其 中 每 个 值 都 利用 频率 加 权 。 公 式 


如 下 : 
[2 fx (kp 
oO= 大 EC 
C+l 


中 大 是 来 自 counter (C) 的 键 , 扩 是 counter 中 给 定 键 的 频率 值 。counter 中 元 素 的 总 数 是 C=》 fi ， 


keC 


























NN 


即 频率 之 和 。 


6.3.2 ”实战 演练 
(1) 用 描述 性 名 称 定义 类 。 


class CounterStatistics: 
(2) 编写 init_ 方法 ,添加 该 对 象 即 将 与 之 连接 的 对 象 。 


def __init_ _(self, raw_counter:Counter): 
self.raw_counter = raw_counter 


我 们 定义 了 一 个 方法 函数 ， 它 将 counter 对 象 作为 参数 值 。 该 counter 对 象 被 保存 为 
Counter_Statistics 实例 的 一 部 分 。 

(3) 初始 化 其 他 可 能 有 用 的 局 部 变量 。 由 于 需要 尽 可 能 早 地 计算 值 ， 因 此 最 早 的 可 能 时 间 是 创建 
对 象 时 。 编 写 一 些 尚 未 定义 的 函数 的 引用 。 

self.mean = self.compute_ mean() 

self.stddev = self.compute_stddev () 

我 们 已 经 及 早 计算 出 counter 对 象 的 均值 和 标准 差 ， 并 将 它们 保存 在 两 个 实例 变量 中 。 

(4) 为 各 种 统计 值 定义 所 需 的 方法 。 计 算 均 值 的 方法 如 下 所 示 。 


def compute mean (self): 
totaly "Count.= ,0 00 
for value, frequency in self.raw_ counter.items(): 
total += value*frequency 
Count += frequency 
return total/count 


(5) 计算 标准 差 的 方法 如 下 所 示 。 


def compute_stddev (self): 
totalr Count.=.0% 10 
for value, frequency in self.raw counter.items(): 
total += frequency* (value-self.mean)**2 
Count += frequency 
return math.sqrt (total/ (count-1)) 


请 注意 ， 该 计算 要 求 首 先 计 算 均 值 。 self.mean 实例 变量 在 前 面 已 经 创建 过 了 o 
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另外 ， 该 计算 使 用 了 math.sqrt () 。 请 确保 在 Python 文件 中 添加 import math 语句 。 
创建 样本 数据 的 方法 如 下 所 示 : 


>>> from ch04 _ r06 import * 

>>> from collections import Counter 

>>> def raw data(n=8, limit=1000, arrival function=arrivall): 
expected time = float (expected(n)) 
data = samples(limit, arrival function(n)) 
wait times = Counter(coupon collector(n, data)) 
return wait times 


我 们 从 ch04_r06 模 块 导 和 信 了 相关 卫 数 ,比如 expected() .arrivall() 和 coupon_collector ()。 
另外 ， 还 从 标准 库 的 collections 模块 导 人 了 counter 集合 

我 们 定义 了 raw_data() 困 数 ,该 函数 将 生成 许多 顾客 访问 记录 。 默 认为 1000 次 访问 , 范围 为 8 
个 不 同类 别 的 顾客 ， 其 中 每 个 类 别 的 成 员 人 数 相 同 。 我 们 将 使 用 coupon_collector () 函数 逐步 遍 
历数 据 ， 生 成 收集 一 整套 8 张 优惠 券 所 需 的 访问 次 数 。 

然后 使 用 该 数据 创建 一 个 Counter 对 象 。countet 对 象 将 获得 收集 一 整套 优惠 券 所 需 的 顾客 数 
量 。 每 个 顾客 数量 还 有 一 个 频率 ， 显 示 了 该 访问 次 数 出 现 的 频率 。 

分 析 counter 对 象 的 方法 如 下 所 示 : 


>>> import random 

>>> from ch06_r02 import CounterStatistics 
>>> random.seed(1) 

>>> data = raw_ data() 

>>> stats = Counterstatistics(data) 

>>> print ("Mean: {0:.2f}".format(stats.mean)) 
Mean: 20.81 


>>> print ("Standard Deviation: {0:.3f}".format (stats.stddev)) 
Standard Deviation: 7.025 


首先 , 我 们 导入 了 rangom 模块 ,以便 可 以 选择 已 知 的 种 子 值 。 这 样 更 便于 测试 和 演示 应 用 程序 ， 
因为 随机 数 序列 是 一 致 的 。 我 们 还 从 ch06_r02 模块 导入 了 counterstatistics 类 。 

定义 完 所 有 元 素 之 后 ， 可 以 将 seeqd 设置 为 一 个 已 知 的 值 ， 并 生成 优惠 券 收 集 测试 结 
raw_data() 函数 将 生成 一 个 counter 对 象 ， 我 们 称 之 为 data。 

i Counter 对 象 创建 一 个 counterStatistics 类 实例 , 并 将 该 实例 赋 给 stats 变 
量 。 创 建 该 实例 时 还 将 计算 一 些 汇 总 统计 值 。 这 些 值 可 以 作为 stats .mean 属性 和 stats.stddev 
属性 。 

对 于 一 套 8 张 的 优惠 券 ， 理 论 上 平均 需要 21.7 次 访问 才能 集 齐 。raw_qata() 的 结果 似乎 显示 
了 与 随机 访问 的 预期 一 致 的 行为 。 这 有 时 被 称 为 零 假 设 (null hypothesis )， 即 数据 是 随机 的 。 


6.3.3 工作 原理 


该 类 封装 了 两 个 复杂 的 算法 ， 但 是 不 包含 任何 改变 状态 的 数据 。 这 种 类 不 需要 保留 大 量 的 数据 ， 
而 是 尽 可 能 早 地 执行 所 有 计算 。 


首先 ， 为 处 理 过 程 编写 一 个 高 级 规范 ， 并 将 其 放 在 init _() 方 法 中 。 然 后 ， 编 写 方法 来 实现 
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指定 的 处 理 步骤 。 可 以 按 需 设 置 很 多 属性 ， 所 以 这 种 方法 非常 灵活 。 

这 种 设计 的 优点 在 于 属性 值 可 以 重复 使 用 。 只 用 计算 一 次 ， 之 后 每 次 使 用 属性 值 时 ， 都 不 需要 进 
一 步 计算 。 
这 种 设计 的 缺点 在 于 修改 底层 的 counter 对 象 会 废弃 counterStatistics 对 象 。 通常 , 在 
Counter 不 会 改变 的 情况 下 使 用 这 种 设计 。 本 实例 创建 了 一 个 用 于 创建 Counterstatistics 对 象 
的 静态 Counter。 









































6.3.4 补充 知识 
































如 果 需 要 有 状态 的 对 象 ， 那 么 可 以 添加 改变 counter 对 象 的 更 新 方法 。 例 如 ， 可 以 通过 将 任务 








委托 给 关联 的 counter, 引入 一 个 方法 来 添加 另 一 个 值 。 设 计 模 式 将 从 计算 和 集合 之 间 的 简单 连 接 转 
变 为 集合 的 包装 器 。 


生 





该 方法 如 下 所 示 : 


def addl(self, value): 


self.raw_counter[value] += 1 
self.mean = self.compute mean() 
self.stddev = self.compute_stddev() 


首先 ， 该 方法 更 新 了 counter 的 状态 。 然 后 ， 重 新 计算 了 所 有 派生 值 。 这 种 处 理 方式 可 能 会 产 











可 以 通过 高 效 地 计算 均值 和 标准 差 来 更 新 和 和 计数 。 
为 此 ， 可 能 需要 改变 init _() 方 法 ， 如 下 所 示 : 


def _ init _(self, counter:Counter=None): 
if counter: 


各 种 和 设置 为 零 值 。 当 计数 count 为 零 时 ,均值 和 标准 差 没 有 和 
如 果 提 供 了 counter， 则 计算 count 、sum 和 平方 和 。 这 些 


sel 
self 
self 
self 
self 
sel 


else: 


self 
self 
self. 
sel 
self 
self. 





f .raw_counter = counter 


.Count = sum(self.raw_ counter[k] for k 
.Sum = sum(self.raw_counter[k]*k for k 


.Sum2 = sum(self.raw_ counter[k]*k**2 fo 


.mean = self.sum/self.count 
f.stddev = math.sqrt((self.sum2-self.sum 
.raw_Ccounter = Counter() 
.Count = 0 
sum = 0 


Eun2 :0 
.mean = None 
stddev = None 








巨大 的 计算 开销 。 每 个 值 发 生 改变 后 ， 需 要 有 充分 的 理由 才能 重新 计算 均值 和 标准 差 。 
除 此 之 外 ， 还 有 很 多 更 高 效 的 解决 方案 。 例 如 ， 如 果 保 存 两 个 中 间 和 以 及 一 个 中 间 计 数 ， 那 么 就 





in self.raw_counter) 
in self.raw_counter) 
rk in self.raw_ counter) 


**2/self.count)/(self.count-1)) 





该 方法 可 以 使 用 counter， 也 可 以 不 使 用 counter。 如 果 没 有 提供 数据 ， 则 使 用 空 集合 ， 并 将 




















计算 mean 和 标准 差 。 


当 添 加 单个 3 

















E 何 有 意义 的 值 ， 因 此 设置 为 None。 
值 可 以 轻松 地 逐步 调整 ,快速 地 重新 


新 值 时 ， 以 下 方法 将 逐步 地 重新 计算 各 个 派生 值 : 
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def add(self, value): 
self.raw_counter[value] += 1 
self.count += 1 
self.sum += value 
self.sum2 += value**2 
self.mean = self.sum/self.count 
if self.count > 1: 
self.stddev = math.sart( 
(self.sum2-self.sum**2/self.count)/(self.count-1)) 


显然 需要 更 新 Counter 对 象 、count 、sum 和 平方 和 ， 以 确保 count 、sum 以 及 平方 和 的 值 在 
任何 时 候 都 匹配 self .raw_counter 集合 。 因 为 count 的 值 至 少 为 1， 所 以 均值 很 容易 计算 。 标 准 
差 至 少 需要 两 个 值 ， 通 过 sum 以 及 平方 和 来 计算 。 

标准 差 公 式 的 变 体 如 下 所 示 : 


















































by 
| 交 一 车 
[on 
Gl 
这 个 公式 涉及 两 个 和 ， 其 中 一 个 是 频率 与 值 的 平方 的 乘积 之 和 ， 另 一 个 是 频率 与 值 的 乘积 之 和 。C 代 
表 值 的 总 数 ， 即 频率 之 和 。 


























6.3.5 ”延伸 阅读 


口 6.7 节 将 介绍 另 一 种 不 同 的 设计 方法 ， 该 实例 将 使 用 函数 扩展 类 定义 。 
口 6.8 节 将 介绍 男 一 种 不 同 的 方法 。 该 实例 将 使 用 特性 ， 并 根据 需要 计算 属性 。 
口 6.4 节 将 讨论 一 个 没有 实际 操作 的 类 。 该 类 与 本 实例 的 类 正好 相反 。 


6.4 设计 数据 类 


在 某 些 情况 下 ， 对 象 是 复杂 数据 的 容器 ， 但 是 并 没有 真正 对 该 数据 进行 很 多 处 理 。 实 际 上 ,在 许 
多 情况 下 ， 可 以 设计 仅 依赖 于 Python 内 置 功能 的 类 ， 不 需要 任何 独特 的 方法 函数 。 

在 许多 情况 下 ，Python 的 内 置 容 器 类 几乎 可 以 覆盖 所 有 用 例 。 但 是 还 有 一 个 小 问题 ， 字典 或 列表 
的 语法 不 像 对 象 属性 的 语法 那么 优雅 。 

如 何 创 建 可 使 用 object .attribute 语法 替代 object ['attribute'] 的 类 ? 


6.4.1 准备 工作 


类 的 设计 其 实 只 有 两 种 情况 。 

口 它 是 无 状态 的 ? 它 是 否 包含 了 很 多 从 不 改变 的 属性 ? 

口 它 是 有 状态 的 ? 各 种 属性 会 有 状态 变化 吗 ? 

有 状态 的 类 设计 更 常见 一 些 。 在 有 状态 的 类 设计 方案 中 ,可 以 在 不 改变 原 有 对 象 的 情况 下 支持 无 
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状态 对 象 。 但 是 ， 使 用 真正 的 无 状态 对 象 具有 显著 的 存储 优势 和 性 能 优势 。 














本 实例 将 使 用 两 种 类 来 说 明 这 两 种 设计 方案 。 

口 无 状态 : 我 们 将 定义 一 个 类 来 描述 具有 牌 面 大 小 和 花色 的 简单 扑克 牌 。 由 于 纸牌 的 牌 面 大 小 

和 花色 不 会 改变 ， 因 此 我 们 将 为 此 创建 一 个 无 状态 类 。 

口 有 状态 : 我 们 将 定义 一 个 类 来 描述 玩家 在 二 十 一 点 游戏 中 的 当前 状态 ， 包 括 庄家 的 手 牌 、 玩 
家 的 手 牌 以 及 一 个 可 选 的 保险 赌注 。 每 手 牌 都 会 有 大 量 的 状态 变化 。 























6.4.2 ”实战 演练 








本 实例 将 首先 介绍 无 状态 对 象 , 然后 介绍 有 状态 对 象 。 对 于 没有 方法 的 有 状态 对 象 , 有 两 种 选择 : 


使 用 一 个 新 类 ， 或 者 利用 一 个 现 有 的 类 。 由 于 存在 这 些 选择 ， 本 实例 将 演示 三 个 子 例 。 


类 的 
为 9。 


1. 无 状态 对 象 

(1) 本 实例 的 无 状态 对 象 基于 collections.namedtuple。 
from collections import namedtuple 

(2) 定义 类 的 名 称 ， 这 个 名 称 将 使 用 两 次 。 


Card = namedtuple('Card', 














(3) 定义 对 象 的 属性 。 
Card = namedtuple('Card', ('rank', 'suit')) 
使 用 该 类 定义 创建 card 对 象 的 过 程 如 下 所 示 : 








>>> from collections import namedtuple 

>>> Card = namedtuple('Card', ('rank', 'suit')) 
>>> eight hearts = Card(rank=8, suit='\N{White Heart Suit}') 
>>> eight hearts 

Card(rank=8, suit='9') 

>>> eight hearts.rank 

8 

>>> eight hearts.suit 

191! 

>>> eight_ hearts[0] 

8 


我 们 创建 了 一 个 名 为 cara 的 新 类 ， 它 有 两 个 属性 名 称 : rank 和 suit。 定 义 类 之 后 ， 可 以 创建 
一 个 实例 。 我 们 构建 了 一 个 纸牌 对 象 eight_hearts， 它 的 牌 面 大 小 (rank ) 为 8， 花 色 〈suit ) 


























可 以 使 用 属性 的 名 称 或 者 属性 在 元 组 中 的 位 置 来 引用 该 对 象 的 属性 。 当 使 用 eight_hearts . 





























rank 或 者 eight_hearts[0] 时 ， 将 得 到 rank 属性 ， 因 为 它 在 属性 名 称 序列 中 是 最 先 定义 的 。 


此 外 














这 种 类 定义 比较 罕见 。 该 类 具有 国定 的 、 已 定义 的 属性 集 。 通 常 , Python 的 类 定义 具有 动态 属性 。 
， 该 对 象 是 不 可 变 的 。 尝 试 修改 实例 属性 的 示例 如 下 : 


>>> eight hearts.suit = '\N{Black Spade Suit}' 
Traceback (most recent call last): 











a 
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File 
"/Library/Frameworks/Python.framework/Versions/3.4/lib/python3.4/doctest .py", line 
1318, in __run 

compileflags, 1), test.globs) 

File "<doctest default[0]>", line 1, in <module> 

eight hearts.suit = '\N{Black Spade Suit}' 
AttributeError: can't set attribute 


我 们 尝试 修改 对 象 的 suit 属性 ， 但 是 抛 出 了 一 个 AttributeError 异常 。 
2. 使 用 新 类 的 有 状态 对 象 
(1) 定义 一 个 新 类 。 


class Player: 
pass 


(2) 我 们 编写 了 一 个 空 类 定义 ， 该 类 的 实例 很 容易 创建 ， 如 下 所 示 。 
p = Player() 
然后 ， 可 以 为 对 象 添加 属性 。 
p.stake = 100 
虽然 这 种 方法 能 够 正常 工作 ,但 是 在 类 定义 中 添加 更 多 功能 通常 是 有 帮助 的 。 一 般 来 说 ， 我 们 会 
在 类 定义 中 添加 方法 (包括 _init__() 方 法 ) 来 初始 化 对 象 的 实例 变量 。 
3. 使 用 现 有 类 的 有 状态 对 象 
除了 定义 一 个 空 类 ， 还 可 以 使 用 标准 库 中 的 模块 。 例 如 ， 可 以 使 用 argparse 模块 或 types 模块 。 
(1) 导入 模块 。 
argparse 模块 包含 Namespace 类 ， 可 用 来 代替 空 类 定义 。 


from argparse import Namespace 
















































































还 可 以 使 用 types 模块 的 simpleNamespace。 


from types import SimpleNamespace 














(2) 创建 引用 simpleNamespace 或 Namespace 的 类 。 








Player = SimpleNamespace 


6.4.3 工作 原理 


上 面 的 这 些 方 法 都 定义 了 一 个 可 以 有 无 限 个 属性 的 类 。 但 是 ，simpleNamespace 的 构造 器 比 定 
义 自 定义 的 类 更 灵活 。 

>>> from types :import SimpleNamespace 

>>> Player = SimpleNamespace 

>>> player_1 = Player(stake=100, hand=[], insurance=None, bet=None) 

>>> player 1.bet = 10 

>>> player 1.stake -= player 1.bet 

>>> player 1.hand.append( eight hearts ) 

>>> player_1 
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namespace (bet=10, hand=[Card(rank=8, suit='9')], insurance=None, stake=90) 

我 们 创建 了 一 个 名 为 Playez 的 新 类 ， 但 是 没有 提供 属性 列表 ， 因 为 属性 是 动态 的 。 

在 构建 player_1 对 象 时 ， 我 们 提供 了 一 个 属性 列表 ， 这 些 属 性 是 该 对 象 的 一 部 分 。 创 建 对 象 后 ， 
可 以 修改 对 象 的 状态 。 我 们 设置 了 player_1.bet 的 值 ,， 更 新 了 player_1.stake 和 player_1.hang。 

当 显示 对 象 时 ， 也 会 显示 所 有 属性 。 属 性 通常 按 字 母 顺序 提供 ， 这 样 编写 单元 测试 示例 会 更 容易 
一 些 

当 使 用 namedatuple () 函数 时 ,我 们 创建 了 一 个 类 对 象 。 我 们 以 字符 串 形式 提供 了 一 个 类 名 以 及 
属性 名 称 ， 这 些 属 性 名 称 构成 了 一 个 元 组 。 最 终 得 到 的 对 象 需要 赋 给 一 个 变量 ， 最 好 的 做 法 就 是 确保 
作为 参数 值 提供 给 nametuple () 函数 的 类 名 和 变量 名 是 一 致 的 。 

通过 namedatuple () 创 建 的 类 对 象 和 通过 class 语句 创建 的 类 对 象 是 同一 种 类 对 象 。 实 际 上 ， 
可 以 使 用 print (card._source) 来 查看 究 竞 是 如 何 创建 类 的 。 

namedtuple 类 本 质 上 是 具有 命名 属性 这 一 附加 功能 的 元 组 。 与 其 他 所 有 元 组 对 象 一 样 ， 它 是 不 
可 变 的 ， 即 一 旦 构建 ， 就 不 能 改变 。 

在 使 用 SimpleNamespace 时 ,我 们 使 用 了 一 个 非常 简单 的 类 定义 ， 它 几乎 没有 方法 。 因 为 
通常 是 动态 的 ， 所 以 可 以 自由 地 设置 、 获 取 和 删除 该 类 的 属性 。 

不 是 tuple 子 类 的 类 或 者 使 用 _slots_ 的 类 (6.5 节 的 主题 ) 都 是 非常 灵活 的 。 另 外 还 有 一 些 
非常 先进 的 技术 可 以 用 来 改变 属性 的 行为 方式 , 这 些 技术 都 需要 对 Python 特殊 方法 名 称 的 工作 原理 有 
深入 的 了 解 。 


6.4.4 ”补充 知识 


在 许多 情况 下 ， 应 用 程序 处 理 过 程 可 以 分 解 为 两 种 类 定义 。 

口 数据 一 一 集合 和 项 : 我们 将 使 用 内 置 集合 类 、 标 准 库 中 的 集合 , 甚至 可 能 是 基于 namedtuple()、 
SimpleNamespace 或 其 他 专注 于 通用 数据 集合 的 类 定义 的 项 。 

口 操作 : 我 们 将 以 类 似 于 6.3 节 的 方式 来 定义 类 。 操 作 类 通常 依赖 于 数据 对 象 。 

将 数据 从 操作 中 分 离 的 思想 符合 某 些 S.0.L.LD. 设 计 原 则 ， 特 别 是 单一 职责 原则 、 开 / 闭 原则 和 接 
口 隔离 原则 。 我 们 可 以 创建 重点 突出 的 类 ， 使 得 通过 子 类 扩展 进行 改变 非常 简单 。 


6.4.5 延伸 阅读 
口 63 节 研究 了 一 个 几乎 全 是 操作 而 没有 数据 的 类 。 该 类 与 本 实例 的 类 正好 相反 。 


6.5 使 用 _slots 优化 对 象 


一 般 情 况 下 ， 对 象 支持 动态 的 属性 集合 ， 集 合 中 的 每 个 属性 都 有 一 个 动态 值 。 基 于 tuple 类 的 
不 可 变 对 象 是 一 种 特殊 情况 。6.4 节 详 细 研 究 了 这 两 种 情况 。 

存在 一 个 中 间 地 常 一 一 对 象 具有 固定 数量 的 属性 , 但 属性 的 值 可 以 更 改 。 通 过 将 类 的 无 限 的 属性 
集合 ( collection ) 改 为 固定 的 属性 集 ( set ) 还 可 以 节省 内 存 和 处 理 时 间 。 
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如 何 创建 具有 固定 属性 集 的 优化 类 ? 


6.5.1 准备 工作 


























首先 了 解 下 赌场 游戏 二 十 一 点 中 一 手 牌 (hand ) 的 概念 。 一 手 牌 包含 两 个 部 分 : 

口 纸牌 〈card ) 

口 投注 (bet) 

两 者 都 具有 动态 值 。 通 常 可 以 获得 更 多 的 纸牌 ， 也 可 以 通过 加 倍 来 提高 投注 。 

分 牌 (split ) 将 创建 额外 的 手 牌 。 每 个 分 出 来 的 手 牌 都 是 一 个 单独 的 对 象 ， 该 对 象 具 有 一 个 不 同 

































































的 纸牌 集合 和 一 个 唯一 的 赌注 。 


6.5.2 ”实战 演练 


值 。 关 于 这 种 功能 的 详细 信息 ， 请 参阅 3.2 节 。 





本 实例 在 创建 类 时 将 利用 特殊 名 称 __slots_。 
(1) 使 用 描述 性 名 称 定义 类 。 
class Hand: 


(2) 定义 属性 名 称 列表 。 


















































SLOGS: 人 EEC 
这 标识 了 类 实例 可 使 用 的 两 个 属性 ， 添 加 任何 其 他 属性 都 会 抛 出 AttributeError 异常 。 
(3) 添加 初始 化 方法 。 


def __init__(self, bet, hand=None): 
self.hand= hand or [] 
self.bet= bet 


一 般 来 说 ， 每 手 牌 都 从 投注 开始 ， 然 后 庄家 分 发 两 张 初始 牌 作为 手 牌 。 在 某 些 情况 下 ,我 们 可 能 
希望 从 一 系列 card 实例 中 重建 一 个 Hand 对 象 。 我们 使 用 了 or 运算 符 的 一 个 功能 。 如 果 左 侧 的 操作 
数 不 是 假 值 ( 即 None )， 那 么 它 就 是 or 表达 式 的 值 。 如 果 左 侧 的 操作 数 为 假 值 ， 则 对 右 侧 操作 数 求 
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(4) 添加 更 新 集合 的 方法 。 我 们 称 之 为 seal ， 因 为 它 用 于 向 Hang 分 发 一 张 新 牌 。 








def deal (self, card): 
self.hand.append (card) 


(5) 添加 __repr__() 方 法 ， 以 便于 打印 输出 。 


def _ repr__(self): 
return "{class_}({bet}, {hand})".format( 
class_= self. class_ .mame 
**xvars (self) 








) 
使 用 该 类 构建 一 手 





乍 的 过 程 如 下 所 示 。 我 们 将 基于 6.4 节 中 的 示例 来 定义 cara 类 。 











FE 
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>>> from ch06_r04 import Card, Hand 

>>> hl = Hand(2) 

>>> hl.deal(Card(rank=4, suit='%')) 

>>> hl.deal (Card(rank=8, suit='9')) 

>>> hl 

Hand(2, [Card(rank=4, suit='%'), Card(rank=8, suit='9')]) 


我 们 导入 了 card 类 和 Hang 类 的 定义 , 然后 构建 了 一 个 Hana 实例 h1, 投注 为 最 小 赌注 的 两 倍 。 
接着 又 通过 Hang 类 的 aeal () 方 法 向 手 牌 hl 中 添加 了 两 张 牌 。 上 述 代 码 说 明 可 以 更 改 pn1 .hana 的 值 。 
上 述 示 例 还 显示 了 hl 实例 来 说 明 投 注 和 纸牌 序列 。__repr__() 方 法 生成 Python 语法 格式 的 
输出 。 
当 玩 家 加 倍 时 ， 也 可 以 替换 hl .bet 的 值 。 


>>> hl.bet *= 2 
>>> hl 
Hand(4, [Card(rank=4, suit='%'), Card(rank=8, suit='9')]) 


在 显示 Hand 对 象 hl 时 ， 可 以 发 现 bet 属性 已 经 改变 。 
创建 一 个 新 属性 的 结果 如 下 所 示 : 


>>> hl.some other attribute = True 
Traceback (most recent call last): 

File 
"/Library/Frameworks/Python.framework/Versions/3.4/lib/python3.4/doctest.py", line 
1318, in run 

compileflags, 1), test.globs) 

File "<doctest default[0]>", line 1, in <module> 

hi.some other attribute = True 
AttributeError: 'Hand' object has no attribute 'some other attribute' 


我 们 尝试 为 Hangd 对 象 n1 创建 一 个 名 为 some_other_attripbute 的 属性 ,结果 抛 出 了 Attribute- 
Error 异常 。 使 用 _slots 意味 着 无 法 向 该 对 象 添加 新 的 属性 。 








































































































6.5.3 ”工作 原理 


在 创建 类 定义 时 , object 类 和 type () 函数 定义 了 一 部 分 行为 。 另 外 , 类 还 被 隐 含 地 分 配 了 一 个 
特殊 的 __new__() 方 法 ， 用 来 处 理 创建 新 对 象 所 需 的 内 部 工作 。 
在 创建 类 定义 时 ，Python 有 三 种 基本 行为 。 

口 默认 行为 ， 在 每 个 对 象 中 构建 一 个 _dict_ 属性 。 因 为 对 象 的 属性 保存 在 一 个 字典 中 ， 所 以 

可 以 自由 地 添加 、 修 改 和 删除 属性 。 这 种 灵活 性 需要 使 用 较 多 内 存 来 存储 字典 对 象 。 

口 _slots_ 行为 , 可 以 避免 使 用 dict_ 属性 。 因 为 对 象 只 具有 在 __slots_ 序列 中 标识 的 
属性 ， 所 以 不 能 随意 地 添加 和 删除 属性 。 只 能 更 改定 义 好 的 属性 值 。 这 种 灵活 性 上 的 欠缺 意 
味 着 每 个 对 象 都 使 用 较 少 的 内 存 。 

口 tuple 子 类 行为 。 这 些 子 类 是 不 可 变 对 象 。 创建 它们 的 最 简单 方法 就 是 使 用 namedtuple ()。 一 
且 构 建 ， 就 不 能 改变 。 在 测量 内 存 使 用 时 ， 这 些 子 类 是 所 有 对 象 中 内 存 使 用 量 最 小 的 。 
slots 优化 在 Python 中 使 用 的 频率 并 不 高 。 默 认 的 类 行为 提供 了 最 大 的 灵活 性 , 使 得 类 很 容 
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易 修 改 。 然 而 ,在 某 些 情况 下 ， 大 型 应 用 程序 可 能 会 受 内 存 使 用 量 的 限制 ,而 使 用 _ slots 可 以 显 





著 提 高 性 能 。 
6.5.4 ”补充 知识 
我 们 可 以 自 定义 _ new__() 方 法 的 工作 方式 ,将 








默认 的 _ aict ”属性 替换 为 其 他 类 型 的 字典 。 


这 是 一 种 相当 先进 的 技术 ， 因 为 它 暴 露 了 更 多 的 类 和 对 象 的 内 部 工作 方式 。 




















Python 依赖 元 类 来 创建 类 的 实例 。 默认 的 元 类 是 type 类 。 元 类 提供 了 多 个 用 于 创建 对 象 的 功能 。 


一 旦 创建 了 空 对 象 ， 那 么 类 的 init__() 方 法 将 初始 化 空 对 象 。 
































通常 , 如 果 需 要 自 定 义 命名 空间 对 象 , 那么 元 类 将 提供 一 个 _ new_() 定 义 或 者 _ prepare__() 











定义 。 在 Python 语言 参考 文档 中 有 一 个 广泛 使 用 的 示例 , 该 示例 演示 了 如 何 调整 用 于 创建 类 的 命名 


空间 。 





更 多 详细 信息 ， 请 参阅 https://docs.python.org/3/reference/datamodel.html#metaclass-example。 


6.5.5 ”延伸 阅读 


口 关于 不 可 变 对 象 和 可 变 对 象 的 更 多 常见 示例 ， 请 参阅 6.4 节 。 


6.6 ”使 用 更 复杂 的 集合 











Python 具有 种 类 丰富 的 内 置 集合 。 第 4 章 详细 介绍 了 内 置 集合 。4.2 节 提 供 了 一 种 决策 树 来 帮助 











我 们 从 可 用 数据 结构 中 找到 适当 的 数据 结构 。 




















除了 内 置 集合 ，Python 还 具有 强大 的 标准 库 ， 所 以 我 们 有 了 更 多 的 选择 ， 当 然 也 需要 做 更 多 的 决 

















定 。 如 何 选择 适当 的 数据 结构 ? 


6.6.1 准备 工作 

















将 数据 放 和 集合 之 前 ， 需 要 考虑 如 何 收集 数据 ， 以 及 如 何 处 理 集合 。 在 这 个 过 程 








， 最 大 的 问题 

















就 是 如 何 识别 集合 中 的 特定 元 素 。 本 实例 将 讨论 几 个 关键 问题 ， 帮 助 我 们 选择 满足 需求 的 集合 。 





替代 集合 包含 在 三 个 模块 中 ， 概 述 如 下 。 














来 说 是 非典 型 的 。 


口 ordaereapict: 保留 键 的 创建 顺序 的 映射 。 























collections 模块 包含 许多 内 置 集合 的 变 体 ， 包 括 以 下 集合 。 

口 aeaue: 双 端 队列 。 这 是 一 个 可 变 序列 ,优化 了 从 每 一 端的 推 入 和 弹出 操作 。 请 注意 ,类 名 以 
小 写字 母 开 头 ， 这 对 于 Python 来 说 是 非典 型 的 。 

口 aefaultdict: 可 以 为 缺失 键 提供 默认 值 的 映射 -请 注意 ,类 名 以 小 写字 母 开 头 , 这 对 于 Python 




















口 counter: 用 于 计算 键 出 现 次 数 的 映射 。 有 时 也 被 称 为 多 重 集 ( multiset ) 或 包 ( bag )。 


口 chainMap: 将 多 个 字典 组 合 为 单个 映射 的 映射 。 
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heapg 模块 包含 一 个 优先 级 队列 实现 ， 这 个 实现 是 按 顺 序 维护 元 素 的 特殊 序列 。 
pisect 模块 包含 搜索 有 序列 表 的 方法 ， 有 序列 表 混 合 了 字典 和 列表 的 功能 。 


6.6.2 ”实战 演练 


我 们 需要 回答 一 些 问题 来 决定 是 否 需要 用 标准 库 数 据 集合 蔡 代 内 置 集合 。 
(1) 该 结构 是 生产 者 和 消费 者 之 间 的 缓冲 区 吗 ? 算法 的 一 部 分 生产 数据 元 素 ， 另 一 部 分 消费 数据 

元 素 ? 

种 常用 的 简单 方法 是 生产 者 在 列表 中 累积 元 素 , 然后 消费 者 从 列表 中 处理 元 素 。 这 种 方法 往往 

会 构建 一 个 大 型 的 中 间 数 据 结 构 。 关 注 点 的 变化 可 能 会 使 生产 和 消费 交错 ， 从 而 减少 内 存 的 使 用 量 。 

口 队列 用 于 先入 先 出 (FIFO ) 处 理 。 元 素 从 一 端 插 入 并 从 另 一 端 消费 。 虽 然 collections.deque 
会 更 高 效 , 但 是 我 们 可 以 使 用 1ist.appenda() 和 1ist.pop(0) 来 模拟 , 也 可 以 使 用 aeaue . 
append() 和 deque.popleft()。 

口 栈 用 于 后 进 先 出 (LIFO ) 处 理 。 元 素 从 同一 端 插入 和 消费 。 虽 然 collections .deque 会 更 高 效 ， 
但 是 我 们 可 以 使 用 list.appenda() 和 1ist .pop() 来 模拟 ,也 可 以 使 用 aeque.appenda() 和 
deque .pop()。o 

口 优先 级 队列 (或 堆 队 列 ) 使 队列 按 某 种 顺序 排列 ， 而 不 同 于 插入 顺序 。 这 通常 用 于 优化 ， 包 

括 图 形 搜索 算法 。 我 们 可 以 通过 使 用 list.append()、list.sort(key=lambda x:x. 

priority) 和 1ist .pop(-1) 来 模拟 , 但 是 因为 每 次 插入 后 都 要 排序 ， 所 以 效率 非常 低 。 使 

用 heapd 模块 效率 更 高 。 

(2) 如 何 处 理 字典 中 的 缺失 键 ? 

口 抛 出 异常 。 这 是 内 置 aict 类 的 工作 方式 。 

口 创建 一 个 默认 元 素 。 这 是 aefaultaict 的 工作 方式 。 我 们 必须 提供 一 个 返回 默认 值 的 函数 。 
常见 的 例子 包括 defaultdict (int) 和 defaultdict (float)，, 使 用 默认 值 零 。 我 们 还 可 以 
使 用 aefauldaict (1ist) 和 defauldict (set) 创 建 列表 -字典 ( dictionary-of-list ) 或 集 - 字 典 
( dictionary-of-set ) 结构 。 

口 在 某 些 情 况 下 ， 我 们 需要 提供 不 同 的 字面 量 作 为 默认 值 。 
lookup = defaultdict (lambda:"N/A") 
上 述 示例 使 用 lambda 对 象 定 义 了 一 个 非常 小 的 函数 ， 它 没有 名 字 ， 并 且 始 终 返 回 字符 串 N/A。 

这 个 示例 将 为 缺失 键 创 建 一 个 默认 元 素 N/A。 

用 来 为 元 素 计 数 的 aefaultdaict (int) 很 常见 ，countez 类 也 实现 了 相同 功能 。 
(3) 如 何 处 理 字典 中 键 的 顺序 ? 

口 顺序 无 关 紧 要 , 我 们 总 是 根据 键 来 设置 和 获取 元 素 。 这 是 内 置 ai ct 类 的 行为 。 键 的 排列 顺序 

取决 于 散 列 随机 化 ， 因 此 是 不 可 预测 的 。 

口 我 们 希望 保留 插入 顺序 以 及 使 用 键 快 速 查找 元 素 。ordereqpict 类 提供 了 这 种 独特 的 功能 组 
合 。 它 的 接口 与 内 置 aict 类 相同 ,但 保留 了 键 的 插入 顺序 。 
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口 我 们 希望 按 适当 的 顺序 排列 键 。 当 有 序列 表 执 行 此 操作 时 ， 给 定 键 的 查找 速度 相当 慢 。 可 以 
使 用 pisect 模块 快速 访问 有 序列 表 中 的 元 素 ， 这 需要 三 个 步 又。 
a. 通过 append () 或 extend() 构 建 列表 。 
b. 使 用 1ist.sort() 对 列表 排序 。 
c. 使 用 bisect 模块 检索 有 序列 表 。 
(4) 如 何 构建 字典 ? 
口 在 已 经 具有 创建 元 素 的 简单 算法 的 情况 下 ， 内 置 的 aict 可 能 就 足够 了 。 
口 在 读 取 配 置 文件 时 可 能 需要 合并 多 个 字典 。 例 如 ， 我 们 可 能 需要 合并 用 户 配置 、 系 统 范围 的 
配置 和 默认 应 用 程序 配置 。 


import json 
user = json.load('~/app.json') 

System = json.load('/etc/app.json') 

application = json.load('/opt/app/default.json') 


(5) 如 何 组 合 这 些 字 肉 


from collections import ChainMap 
config = ChainMap (user, system, application) 
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最 终 得 到 的 config 对 象 将 按 顺序 搜索 各 个 字典 , 它 将 在 用 户 、 系 统 和 应 用 程序 字典 中 搜索 给 定 键 。 


6.6.3 工作 原理 














数据 处 理 过 程 中 有 两 个 主要 的 资源 限制 : 
口 存储 ; 
口 时 间 。 
所 有 程序 设计 都 受到 这 两 种 限制 。 在 大 多 数 情况 下 ， 两 者 是 对 立 的 : 为 减少 存储 使 用 所 做 的 任何 


























事情 都 会 增加 处 理 时 间 ， 而 为 缩短 处理 时 间 所 做 的 任何 事情 都 会 增加 存储 使 用 。 











时 间 可 以 通过 复杂 度 指标 形式 化 。 算 法 复杂 度 的 分 析 指 标 有 很 多 种 。 

口 复杂 度 为 0(1) 的 操作 需要 的 时 间 是 恒定 的 。 在 这 种 情况 下 , 复杂 度 不 会 随 着 数据 量 的 变化 而 
变化 。 对 于 一 些 集 合 , 实 际 的 总 体 长 期 平均 值 几 乎 为 0(1), 但 是 也 有 少量 例外 。 列 表 的 appena 
操作 就 是 一 个 例子 : 它们 的 复杂 度 大 致 相同 。 但 是 内 存 管理 操作 偶尔 会 增加 一 些 时 间 。 

口 复杂 度 为 O(n) 的 操作 所 需 的 时 间 是 线性 的 。 随 着 数据 量 的 增长 ， 开 销 会 增加 。 查 找 列 表 中 的 
元 素 具 有 这 种 复杂 度 。 查 找 字 典 中 元 素 的 复杂 度 更 接近 于 O(D)， 因 为 它 的 复杂 度 几 乎 一 样 低 ， 
无 论 字 典 有 多 大 。 

口 复杂 度 为 O(n log n) 的 操作 ， 其 开销 的 增长 比 数据 量 的 增长 更 加 迅速 。bisect 模块 包括 具有 

这 种 复杂 度 的 搜索 算法 。 

口 还 有 更 糟糕 的 情况 : 一 些 算法 具有 O(n ) 甚至 O(n!) 的 复杂 度 。 我 们 希望 通过 聪明 的 设计 和 更 
智能 的 数据 结构 来 避免 这 些 复 杂 度 。 

各 种 数据 结构 反映 了 时 间 和 存储 之 间 的 权衡 。 
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6.6.4 ”补充 知识 


作为 一 个 具体 且 极 端的 例子 , 本 实例 将 搜索 Web 日 志文 件 中 的 特定 事件 序列 。 本 实例 有 两 个 总 体 
设计 策略 。 
口 使 用 类 似 file .read() .splitlines() 的 方式 , 把 所 有 事件 读 取 到 列表 结构 中 。 然后 ,可 以 

使 用 一 个 for 语句 遍历 列表 来 查找 事件 的 组 合 。 虽 然 初 始 读 取 可 能 需要 一 些 时 间 ， 但 是 搜索 
会 非常 快 ， 因 为 日 志 全 部 在 内 存 中 。 

口 从 日 志文 件 中 读 取 每 个 事件 。 如 果 事 件 是 模式 的 一 部 分 ， 则 只 保存 该 事件 。 我 们 可 以 使 用 
defaultdict， 卫 地 址 作为 键 ， 事 件 列表 作为 值 。 虽 然 读 取 日 志 需 要 更 长 时 间 ， 但 是 内 存 中 
生成 的 结构 将 会 小 得 多 。 

第 一 种 方法 将 所 有 内 容 读 入 内 存 , 这 往往 是 非常 不 切实 际 的 。 在 大 型 Web 服务 器 中 , 日 志 可 能 

含 数 百 GB 甚至 数 百 TB 的 数据 ， 任 何 计算 机 的 内 存 都 放 不 下 。 

第 二 种 方法 有 许多 种 备 选 实现 。 

口 单 进程 : 本 书 中 大 多 数 Python 实例 采用 的 常用 方法 ， 是 假设 我 们 正在 创建 一 个 作为 单 进程 运 

行 的 应 用 程序 。 

口 多 进程 : 可 以 使 用 multiprocessing 或 concurrent 包 将 逐 行 搜索 扩展 为 多 进程 应 用 程序 。 
我 们 将 创建 一 系列 工作 进程 ， 每 个 进程 都 可 以 处 理 可 用 数据 的 一 个 子 集 ， 并 将 结果 返回 给 合 
并 结果 的 消费 者 。 在 现代 多 处 理 器 、 多 核 计算 机 上 ， 这 种 方法 可 以 非常 有 效 地 利用 资源 。 

口 多 主机 : 极端 情况 下 需要 多 个 服务 器 ， 每 个 服务 器 都 处 理 数据 的 一 个 子 集 。 这 需要 在 主机 之 
间 进 行 更 加 精细 的 协调 来 共享 结果 集 。 通 常 ， 这 种 处 理 需 要 Hadoop 这 样 的 框架 。 
我 们 经 常 将 大 型 搜索 分 解 为 map 和 reduce 处 理 。 map 阶段 对 集合 中 的 每 个 元 素 应 用 一 些 处 理 或 过 

滤 。reduce 阶段 将 map 阶段 的 结果 合并 到 汇总 或 聚合 对 象 中 。 在 许多 情况 下 ，MapReduce 操作 的 复杂 

层次 结构 会 应 用 于 前 一 个 MapReduce 操作 的 结果 。 








































































































































































































6.6.5 ”延伸 阅读 
口 关于 选择 数据 结构 的 基本 决策 集 ， 请 参阅 4.2 节 。 


6.7 ”扩展 集合 一 一 统计 数据 的 列表 


6.3 节 讨论 了 一 种 区 分 复杂 算法 和 集合 的 方法 ， 其 实例 展示 了 如 何 将 算法 和 数据 分 别 封装 到 不 同 
的 类 中 。 

另 一 种 设计 策略 是 扩展 集合 ， 整 合 有 用 的 算法 。 

如 何 扩 展 Python 的 内 置 集合 ? 


6.7.1 准备 工作 
本 实例 将 创建 一 个 复杂 的 列表 ， 它 可 以 计算 列表 元 素 的 总 和 和 均值 。 根 据 本 实例 的 设计 目标 ,应 
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用 程序 只 能 向 列表 添加 数字 ， 否 则 会 抛 出 valueError 异常 。 











6.7.2 ”实战 演练 
(1) 为 执行 简单 统计 的 列表 选择 一 个 名 称 。 将 类 定义 为 内 置 列表 类 1ist 的 扩展 。 


class StatSLiSt(11Sst) : 

上 述 代 码 显示 了 为 内 置 类 定义 扩展 的 语法 。 如 果 提 供 一 个 仅 由 pass 语句 组 成 的 类 体 ， 那 么 新 的 
StatsList 类 可 以 在 任何 使 用 1ist 类 的 地 方 使 用 。 

在 本 例 中 ，1ist 类 被 称 为 statsList 的 超 类 。 

CO) 将 附加 处 理 定义 为 新 的 方法 。self 变量 将 是 一 个 继承 了 超 类 的 所 有 属性 和 方法 的 对 象 sum () 
方法 如 下 所 示 。 


def Sum(Self) : 
return Sum(v for v in self) 


我 们 使 用 生成 器 表达 式 清楚 地 表明 ，sum() 函数 被 应 用 于 列表 中 的 每 个 元 素 。 使 用 生成 器 表达 式 
可 以 非常 容易 地 进行 计算 或 引入 过 滤器 。 
(3) 经 常 应 用 于 列表 的 另 一 种 方法 如 下 所 示 。 


def count (self): 
return Sum(1 for v in self) 


该 方法 将 对 列表 中 的 元 素 进 行 计数 。 在 实现 方法 时 ， 我 们 选择 使 用 生成 右 表 达 式 ， 而 不 是 使 用 
len () 函数 ， 以 防 将 来 需要 添加 过 滤 功 能 。 
(4) mean 方法 如 下 所 示 。 


def mean (self): 
return self.sum() / self.count() 


(5) 其 他 方法 如 下 所 示 。 


def sum2 (self): 

return sum(v**2 for V in self) 
def variance (self): 

return (self.sum2() - self.sum()**2/self.count())/(self.count()-1) 
def stddev (self): 

return math.sart (self.variance()) 


sum2 () 方 法 计算 列表 中 值 的 平方 和 。 平方 和 用 于 计算 方差 ， 然后 方差 用 于 计算 列表 中 值 的 标 
准 差 。 

StatsList 对 象 继 承 了 1ist 对 象 的 所 有 功能 ， 并 通过 我 们 添加 的 方法 实现 扩展 。 使 用 该 集合 的 
示例 如 下 : 


>>> from ch06_r06 import StatsList 

>>> subsetl1 = StatsList([10, 8, 13, 9, 11]) 
>>> data = StatsList([14, 6, 4, 12, 7, 5]) 
>>> data.extend(subset1) 
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我 们 通过 字面 量 列表 对 象 创建 了 两 个 statsList 对 象 ， 然 后 使 用 exteng () 方 法 组 合 了 这 两 个 
对 象 。 结 果 对 象 如 下 : 


>>> data 
[14, 6, 4, 12, 7, 5, 10, 8, 13, 9, 11] 


使 用 该 对 象 其 他 方法 的 示例 如 下 : 


>>> data.mean() 

9.0 

>>> data.variance() 
11.0 


上 述 示例 显示 了 mean () 方 法 和 variance() 方 法 的 结果 。 当 然 ， 内 置 1ist 类 的 所 有 功能 都 出 
现在 了 扩展 类 中 。 


>>> data.sort() 
>>> data[len(data)//2] 
9 


我 们 使 用 了 内 置 的 sort () 方 法 ， 并 使 用 索引 功能 从 列表 中 提取 了 一 个 元 素 。 因 为 列表 中 元 素 的 
个 数 为 奇数 , 所 以 该 元 素 就 是 中 位 数 。 请 注意 ,sort ( ) 方法 会 更 改 1ist 对 象 , 它 改变 了 元 素 的 顺序 。 
这 种 方法 不 是 该 算法 的 最 佳 实现 。 






























































6.7.3 工作 原理 


继承 的 概念 是 类 定义 的 基本 特征 之 一 。 当 创建 超 类 - 子 类 关系 时 ， 子 类 继承 了 超 类 的 所 有 功能 。 
这 种 关系 有 时 也 被 称 为 泛 化 - 特 化 关系 。 超 类 是 更 通用 的 类 ， 而 子 类 更 加 专用 ， 因 为 它 添加 或 修改 了 
功能 。 

所 有 内 置 类 都 可 以 通过 扩展 添加 功能 。 在 本 例 中 ， 我 们 添加 了 一 些 统计 处 理 ， 创 建 了 一 个 子 类 ， 
它 是 一 种 专用 的 列表 。 

两 种 设计 策略 难 分 优 劣 。 
口 扩展 : 在 本 例 中 ， 我 们 扩展 了 一 个 类 来 添加 功能 。 这 些 功能 与 这 种 数据 结构 紧密 结合 ， 不 能 
轻易 地 将 它们 用 于 不 同类 型 的 序列 。 
口 包装 : 在 设计 具有 大 量 处 理 的 类 时 ,我们 将 处 理 和 集合 分 离开 来 。 这 导致 在 处 理 两 个 对 象 时 
更 加 复杂 。 
很 难说 哪 一 种 设计 策略 在 本 质 上 更 好 。 在 许多 情况 下 ， 我 们 会 发 现 包 装 可 能 具有 优势 ， 因 为 它 似 
乎 更 符合 S.O0.L.LD. 设 计 原 则 。 但是， 在 某 些 情况 下 ， 显 然 更 适合 扩展 一 个 内 置 的 集合 。 

































































































































































6.7.4 补充 知识 


泛 化 可 以 产生 抽象 的 超 类 。 抽 象 类 是 不 完整 的 ， 需 要 通过 子 类 进行 扩展 并 提供 缺少 的 实现 细节 。 
我 们 不 能 生成 一 个 抽象 类 的 实例 ， 因 为 它 缺 少 使 它 有 用 的 功能 。 
正如 4.2 节 中 提 到 的 ， 所 有 内 置 集合 都 有 抽象 超 类 。 我 们 也 可 以 从 一 个 抽象 基 类 开始 设计 ， 而 不 





























186 第 6 章 类 和 对 象 的 基础 知识 





是 从 一 个 具体 的 类 开始 。 例 如 : 


from collections.abc import Mapping 
class MyFancyMapping (Mapping): 
etc. 


为 了 使 这 个 类 更 加 完备 ， 需 要 为 一 些 特殊 方法 提供 实现 : 


口 getitem _() 

















口 setitem _() 
DD_ gdelitem _() 
DD_ iter _() 
口 len _() 
这 些 方法 都 是 抽象 类 所 缺少 的 ， 它 们 在 Mapping 类 中 没有 具体 的 实现 。 在 为 每 个 方法 提供 了 可 
行 的 实现 之 后 ， 就 可 以 创建 新 子 类 的 实例 了 。 


6.7.5 延伸 阅读 
口 6.3 节 采 用 了 不 同 的 处 理 方法 ， 把 复杂 的 算法 放 在 了 一 个 单独 的 类 中 。 


6.8 使 用 特性 计算 惰性 属性 


在 6.3 节 中 ， 我们 定义 了 一 个 类 ， 这 个 类 及 早 地 计算 了 集合 中 数据 的 大 量 属性 。 这 种 设计 方案 的 
思想 是 尽早 计算 值 ， 这 样 属性 就 不 会 产生 进一步 的 计算 开销 。 

我 们 将 这 种 处 理 称 为 及 早 处 理 ， 因 为 尽 可 能 早 地 完成 了 工作 。 男 一 种 方法 是 惰性 处 理 ， 即 尽 可 能 
晚 地 完成 工作 。 

如 果 一 些 值 很 少 使 用 ,并 且 计 算 开 销 非 常 大 ， 应 该 怎么 办 ?怎样 才能 最 小 化 前 期 计算 ， 只 在 真正 
需要 时 才 计 算 值 ? 


6.8.1 准备 工作 


假设 我 们 已 经 使 用 counter 对 象 收集 了 数据 。 在 本 例 中 ， 顾 客 被 分 为 成 员 数 量 大 致 相同 的 8 个 
类 别 。 数 据 如 下 所 示 : 

Counter({Ll5: 9 14 257 20 ,4 二) 

在 这 个 集合 中 ， 键 是 获得 一 整套 优惠 券 所 需 的 访问 次 数 ， 值 是 给 定 访问 次 数 出 现 的 次 数 。 在 上 述 
数据 中 ,访问 次 数 15 出 现 了 7 次 , 访问 次 数 17 出 现 了 $ 次 ,这 是 一 个 长 尾 分 布 。 仅 有 一 次 ,收集 一 
整套 8 张 优 惠 券 需 要 45 次 访问 。 

我 们 需要 计算 counter 的 一 些 统计 数据 。 为 此 ， 总 体 策 略 有 两 种 。 

口 扩展 : 6.7 节 已 经 详细 讨论 了 这 个 问题 ， 第 7 章 将 继续 讨论 。 
口 包装 : 可 以 将 Counter 对 象 包装 在 另 一 个 类 中 ， 仅 提供 我 们 需要 的 功能 。 第 7 章 将 会 讨论 这 


个 问题 。 
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包装 策略 的 一 个 常见 变 体 使 用 一 个 统计 计算 对 象 和 一 个 单独 的 数据 集合 对 象 , 这 是 一 种 优雅 的 解 
决 方案 。 
无 论 选 用 哪 种 类 架构 ， 这 种 处 理 都 有 两 种 设计 方案 。 
口 及 早 : 尽 可 能 早 地 计算 统计 数据 。6.3 节 介 绍 过 这 种 方法 。 
口 惰性 : 直到 需要 时 ， 才 会 通过 方法 函数 或 特性 来 进行 计算 。 在 6.7 节 中 ,我 们 给 集合 类 添加 了 
方法 ， 这些 方法 是 惰性 计算 的 示例 。 仅 在 需要 时 才 计 算 统计 数据 的 值 。 
这 两 种 设计 方案 的 基本 数学 原理 是 相同 的 ， 唯 一 的 区 别 在 于 执行 计算 的 时 间 。 
均值 1 的 计算 公式 如 下 : 















































HA= 2 fxk 
其 中 是 来 自 counter (C ) 的 键 , 有 是 counter 中 给 定 键 的 频率 值 。 


标准 差 "取决 于 均值 人 4。 公式 如 下 : 
[2 大 x( 人 一 人 
oO= keC 
C+l 


其 中 是 来 自 counter (C) 的 键 , 凡是 counter 中 给 定 键 的 频率 值 。counter 中 元 素 的 总 数 是 6 
GE 》 吕 


大 EC 

















6.8.2 ”实战 演练 
(1) 用 描述 性 名 称 定义 类 。 


class LazyCounterStatistics: 
(2) 编写 初始 化 方法 ， 添 加 该 对 象 即将 与 之 连接 的 对 象 。 


def __init_ _(self, raw_counter:Counter): 
self.raw_counter = raw_counter 


我 们 定义 了 一 个 方法 函数 ， 它 将 counter 对 象 作为 参数 值 。counter 对 象 被 保存 为 Counter_ 
statistics 实例 的 一 部 分 。 

(3) 定义 一 些 有 用 的 辅助 方法 。 这 些 方法 都 使 用 了 eproperty 装饰 器 ， 这 样 它们 的 行为 就 像 一 个 
简单 的 属性 。 


@property 
def suml(self): 
return sum(f*v for Vv, f in self.raw_ counter.items()) 





@property 
def count (self): 
return sum(f for v, f in self.raw_ counter.items()) 


(4) 为 各 种 统计 值 定义 所 需 的 方法 。 计 算 均 值 的 方法 如 下 所 示 。 该 方法 也 使 用 了 eproperty 装饰 
器 。 其 他 方法 可 以 像 属 性 一 样 被 引用 ， 即 使 它们 是 正确 的 方法 函数 。 
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@property 
def mean (self): 
return self.sum / self.count 


(5) 计算 标准 差 的 方法 如 下 所 示 。 


@property 
def sum2 (self): 

return sum(f*v**2 for v, f in self.raw_ counter.items()) 
@property 
def variance (self): 

return (self.sum2 - self.sum**2/self.count)/(self.count-1) 
@property 
def stddev (self): 

return math.saqrt (self.variance) 


请 注意 ， 该 计算 使 用 了 matn .sart () ， 请 确保 在 Python 文件 中 添加 import math 语句 。 
(6) 创建 样本 数据 的 方法 如 下 所 示 。 


>>> from ch04 r06 import * 

>>> from collections import Counter 

>>> def raw data(n=8, limit=1000, arrival function=arrivall): 
expected time = float (expected(n)) 
data = samples(limit, arrival function(n)) 
wait times = Counter(coupon collector(n, data)) 
return wait times 


我 们 从 ch04_r06 模 块 导 入 了 相关 卫 数 ,比如 expected() .arrivall() 和 coupon_collector ()。 











另外 还 从 标准 库 的 collections 模块 导 人 了 counter 集合 。 








我 们 定义 了 raw_gata() 函数 , 该 函数 将 生成 许多 顾客 访问 记录 。 上 默认 为 1000 次 访问 , 范围 为 8 








个 不 同类 别 的 顾客 ， 其 中 每 个 类 别 的 成 员 人 数 相 同 。 然 后 使 用 coupon_collector () 函数 遍历 数据 ， 


生成 收集 一 整套 8 张 优惠 券 所 需 的 访问 次 数 。 























(ul 


最 后 使 用 该 数据 创建 一 个 counter 对 象 。counter 对 象 将 获得 收集 一 整套 优惠 券 所 需 的 顾客 数 
每 个 顾客 数量 还 有 一 个 频率 ， 显 示 了 该 访问 次 数 出 现 的 频率 。 
(7) 分 析 counter 对 象 的 方法 如 下 所 示 。 


>>> import random 

>>> from ch06_r07 import Lazy Counter Statistics 

>>> random.seed(1) 

>>> data = raw_ data() 

>>> stats = Lazy Counter Statistics(data) 

>>> print ("Mean: {0:.2f}".format (stats.mean)) 

Mean: 20.81 

>>> print ("Standard Deviation: {0:.3f}".format (stats.stddev)) 
Standard Deviation: 7.025 


首先 , 我 们 导入 了 random 模块 , 以 便 可 以 选择 已 知 的 种 子 值 。 这 样 更 便于 测试 和 演示 应 用 程序 ， 





























因为 随机 数 是 一 致 的 。 我 们 还 从 ch06_r07 模块 导入 了 LazyCounterstatistics 类 。 














定义 完 所 有 元 素 之 后 ， 可 以 将 seeqd 设置 为 一 个 已 知 的 值 ， 并 生成 优惠 券 收 集 测 试 结果 。 





Raw_data () 函数 将 生成 一 个 counter 对 象 ， 我 们 称 之 为 aata。 
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我 们 将 使 用 该 counter 对 象 创建 LazyCounterstatistics 类 的 一 个 实例 ， 并 将 其 赋 给 stats 变 
量 。 在 打印 stats .mean 特性 和 stats.stddev 特性 的 值 时 , 会 调用 这 些 方法 对 各 种 值 进行 适当 的 计算 。 

对 于 一 套 8 张 的 优惠 券 ， 理 论 上 平均 需要 21.7 次 访问 才能 集 齐 。raw_gata () 的 结果 似乎 显示 
了 与 随机 访问 的 预期 一 致 的 行为 。 这 有 时 被 称 为 零 假设 ， 即 数据 是 随机 的 。 

在 本 例 中 ， 数 据 确 实 是 随机 的 。 我 们 已 经 验证 了 本 实例 所 使 用 的 方法 ， 现 在 可 以 将 该 软件 用 于 现 
实 世界 中 的 数据 ， 并 且 可 以 确信 该 软件 能 够 正常 工作 。 















































6.8.3 工作 原理 


当 值 很 少 被 使 用 时 ， 惰 性 计算 可 以 很 好 地 解决 问题 。 在 本 例 中 ， 在 计算 方差 和 标准 差 的 过 程 
计数 被 计算 了 两 次 。 

这 表明 在 某 些 情况 下 ,简单 地 使 用 惰性 计算 并 不 是 最 理想 的 。 这 个 问题 通常 很 好 解决 ,我 们 总 是 
可 以 创建 局 部 变量 来 保存 中 间 结 果 。 

为 了 使 这 个 类 看 起 来 像 执行 及 早 计算 的 类 ， 我 们 使 用 了 eproperty 装饰 器 。 这 样 方法 函数 看 起 
来 就 像 一 个 属性 ,但 是 这 只 适用 于 没有 参数 值 的 方法 函数 。 

在 所 有 情况 下 ， 及 早 计算 的 属性 都 可 以 用 惰性 特性 蔡 换 。 创 建 及 早 属性 变量 的 主要 原因 是 为 了 优 
化 计算 开销 。 在 值 很 少 被 使 用 的 情况 下 ， 人 惰性 特性 可 以 避免 开销 较 大 的 计算 。 


6.8.4 补充 知识 


在 某 些 情况 下 ， 可 以 进一步 优化 特性 来 限制 重新 计算 的 次 数 。 在 实施 优化 之 前 ， 需 要 仔细 分 析 使 
用 情景 ， 了 解 底层 数据 更 新 的 模式 。 

在 先 加 载 数据 再 执行 分 析 的 情况 下 ， 可 以 缓存 结果 ， 以 免 重 复 计 算 。 

代码 如 下 所 示 : 


def init (self，Traw_counter:Counter) : 
self.raw_counter = raw_counter 
self._count = None 
@property 
def count (self): 
if self._count is None: 
self._count = sum(f for v, f in self.raw_counter.items()) 
return self._count 


这 种 技术 使 用 属性 来 保存 计数 计算 的 副本 。 这 个 值 只 用 计算 一 次 ,然后 根据 需要 多 次 返回 ,避免 

了 重新 计算 的 开销 。 
只 有 当 raw_counter 对 象 的 状态 从 不 改变 时 , 这 种 优化 才 有 用 。 在 更 新 底层 counter 的 应 用 程 

序 中 , 缓存 的 值 将 会 过 期 , 每 次 更 新 counter 时 , 这 种 应 用 程序 需要 重新 创建 LazyCounterStatistics。 
















































































































































































6.8.5 延伸 阅读 
口 63 节 定义 了 一 个 及 早 计算 了 许多 属性 的 类 ， 其 实例 代表 了 另 一 种 管理 计算 开销 的 策略 。 
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6.9 使 用 可 设置 的 特性 更 新 及 早 属 性 


节 。 关 于 惰性 计算 





前 1 



























































看 的 几 个 实例 研究 了 及 早 计算 和 惰性 
的 示例 ， 请 参阅 6.8 节 。 






























































计算 之 间 的 重要 





区 别 。 关 于 及 早 计算 的 示例 ， 请 参阅 6.4 














必须 发生 改变 。 通 常 使 用 方法 尽 可 能 早 地 

















如 果 对 象 是 有 状态 的 ,那么 属性 值 在 对 象 的 生命 周期 
计算 属性 的 变化 ， 但 这 并 不 是 必须 的 。 
有 状态 对 象 的 属性 值 的 设置 方式 有 以 下 几 种 。 
口 通过 方法 设置 属性 值 。 
四 及 早 计算 结果 ， 并 把 结果 放 在 属性 中 。 
四 惰性 计算 结果 ， 使 用 语法 类 似 于 简单 属 


结 





口 通过 属性 设置 值 。 
































加 如 果 通 过 特性 1 




















如 果 想 使 | 
可 以 利 


] 类 似 于 





























例如 ， 有 一 个 相当 复杂 的 对 象 ， 


算出 值 ? 


6.9. 


假设 有 一 个 代表 一 段 航程 的 类 ， 它 有 三 个 主要 特征 


1 准备 工作 











它 具 有 多 个 从 其 他 属 


性 的 特性 。 


少 性 计算 结果 ， 那 么 新 状态 可 以 反映 在 这 些 计算 中 。 
时 性 的 语法 设置 值 ， 同 时 还 想 执行 及 早 计算 ， 应 该 怎么 办 ? 


| 





特性 设置 器 ( property setter ) 来 使 用 类 似 于 属性 的 语法 。 这 种 方法 还 可 以 及 早 计算 出 





Ex 














性 派生 的 属性 。 如 何 从 属性 的 变化 中 及 早 计 


























值 的 变化 中 及 早 计 算出 另 一 个 值 。 














速度 、 时 间 和 距离 。 通 常 可 以 从 其 中 两 个 













































































我 们 可 以 添加 功能 ， 使 这 个 类 更 加 复杂 。 例 如 ， 如 果 从 纬度 和 经 度 计算 距离 ,那么 必须 简单 修改 
一 般 的 方法 。 如 果 使 用 特定 的 点 而 不 是 更 灵活 的 距离 ， 那 么 距离 的 计算 可 能 涉及 速度 、 时 间 、 起 点 
和 方位 等 。 这 涉及 两 个 互 锁 的 计算 。 本 实例 不 会 做 这 么 复杂 的 计算 ， 而 是 使 用 简单 的 速度 -时 间 -距离 
计算 。 

由 于 必须 设置 两 个 属性 来 计算 第 三 个 属性 ， 因 此 对 象 的 内 部 状态 集 相 当 复 杂 。 

口 没有 设置 属性 : 一 切 都 是 未 知 的 。 

















口 设置 了 一 个 属性 





: 还 不 能 执行 计算 。 

















口 设置 了 两 个 不 同 的 属性 : 
此 后 ， 支 持 附 加 属 
新 值 。 

口 如 果 最 后 修改 了 速度 和 时 间 t， 则 计算 距离 4。 使 用 d=xxt。 
口 如 果 最 后 修改 了 速度 x 和 距离 4， 则 计算 时 间 t。 使 用 1= a/r。 


口 如 果 最 后 修改 了 时 间 上 和 距离 4， 则 计算 速度 xr。 使 用 r=4/t。 














对 象 的 预 





期 行为 如 下 所 示 : 





可 以 计算 第 三 个 属性 。 
性 更 改 是 非常 理想 的 。 基 本 规则 是 根据 最 近 的 两 个 不 同 的 变化 来 计算 适当 的 
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leg_1 = Deg() 

leg_1.rate = 6.0 # 单位 为 海里 /小 时 

leg_1.distance = 35.6 # 单位 为 海里 

print ("Cover {leg.distance:.1lf}nm at {leg.rate: .2f}kt = {leg.time: .2f}hr". 
format (leg=leg_1)) 


这 种 设计 有 一 个 非常 明显 的 优点 , 就 是 为 leg 对 象 提 供 了 一 个 非常 简单 的 接口 。 应 用 程序 只 需 设 
置 任意 两 个 属性 ， 而 且 计 算 及 早 进行 ， 从 而 为 剩余 属性 提供 值 。 


6.9.2 ”实战 演练 


本 实例 分 为 两 部 分 。 首 先 概述 可 设置 (settable ) 的 特性 的 定义 ,然后 详细 说 明 如 何 跟踪 状态 变化 。 
(GD 使 用 有 意义 的 名 称 定义 类 。 
CO) 提供 隐藏 属性 。 这 些 隐藏 属性 将 被 暴露 为 特性 。 


class Leg: 

def _ init_ _ (self): 
self._rate= rate 
self. time= time 
self._distance= distance 


(3) 为 每 个 可 获取 的 特性 提供 一 个 计算 特性 值 的 方法 。 在 许多 情况 下 ， 特 性 与 隐藏 的 属性 类 似 。 
@property 
def rate(self): 

return self._rate 


(4) 为 每 个 可 设置 的 特性 提供 一 个 设置 特性 值 的 方法 。 
@rate.setter 
def rate(self, value): 


self._rate = value 
self._calculate('rate') 


setter 方法 具有 一 个 基于 getter 方法 名 称 的 特殊 的 特性 装饰 器 。 在 本 例 中 ，rate() 方 法 上 的 
@property 装饰 髓 也 创建 了 一 个 rate.setter 装饰 髓 ， 可 以 用 于 定义 该 属性 的 setter 方法 。 
注意 ，getter 和 setter 的 方法 的 名 称 是 相同 的 。eproperty 装饰 器 和 8@rate .setter 装饰 占 可 以 
用 来 区 分 这 两 种 方法 。 
在 本 例 中 ,我 们 将 值 保存 在 隐藏 属性 self ._rate 中 。 然 后 ， 如 果 可 能 的 话 ,使 用 _calculate() 
方法 及 早 计算 所 有 隐藏 的 属性 。 
(5) 可 以 对 其 他 所 有 特性 重复 上 述 过 程 。 在 本 例 中 ， 时 间 和 距离 的 代码 是 相似 的 。 


@property 

def time(self): 
return self. time 

@time.setter 

def time(self, value): 
self. time = value 
self._calculate('time') 

@property 

def distance(self): 
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return self._distance 
@distance.setter 
def distance(self, value): 
self._ distance = Value 
self._calculate('distance') 


跟踪 状态 变化 的 细节 依赖 于 collections .deque 类 的 一 个 功能 。 计算 规则 可 以 实现 为 不 同 变化 
的 两 元 素 有 界 队列 。 随 着 每 个 不 同 字段 的 变化 ， 可 以 将 字段 名 插 人 队列。 队列 中 两 个 不 同 的 名 称 是 最 
后 变更 的 两 个 字段 ， 第 三 个 字段 可 以 通过 集合 减法 来 确定 。 

(1) 导入 deque 类 。 


from collections import deque 


(2) 在 init _() 方 法 中 初始 化 队列 。 


self._changes= deque (maxlen=2) 


(3) 将 每 个 不 同 的 变化 插入 队列 ， 确 定 队 列 中 缺少 的 字段 ， 并 计算 该 字段 。 


def _calculate(self, change): 
if change not in self._changes: 
self._changes.append (change) 
































compute = {'rate', 'time', 'distance'} - set(self._changes) 
if compute == {'distance'}: 
self._ distance = self. time * self._rate 
elif compute == {'time'}: 
self. time = self._ distance / self._rate 
elif compute == {'rate'}: 


self._rate = self. distance / self. time 
如 果 最 新 的 更 改 不 在 队列 中 , 那么 它 将 被 追加 到 队列 中 。 由 于 队列 的 大 小 是 固定 的 ， 因 此 最 旧 的 
元 素 〈 也 就 是 最 近 最 少 更 改 的 元 素 ) 将 被 静默 地 弹出 ， 以 保持 队列 大 小 不 变 。 
可 用 特性 集 与 最 近 更 改 的 特性 集 之 间 的 差 集 是 一 个 特性 名 称 。 这 个 名 称 是 最 近 最 少 设 定 的 特性 名 
称 ， 这 个 特性 的 值 可 以 由 最 近 设 置 的 另外 两 个 特性 值 计 算得 出 。 

































































6.9.3 工作 原理 


这 种 设计 方案 之 所 以 可 行 ， 是 因为 Python 使 用 了 一 种 称 为 描述 符 〈descriptor ) 的 类 来 实现 特性 

描述 符 类 可 以 具有 获取 值 、 设 置 值 和 删除 值 的 方法 。 根 据 上 下 文 ， 其 中 一 个 方法 是 隐 式 使 用 的 。 
口 当 在 表达 式 中 使 用 描述 符 对 象 时 ， 将 使 用 _get ”方法 。 
口 当 描 述 符 位 于 赋值 语句 的 左 侧 时 ， 将 使 用 ”set_ 方法 。 
口 当 描 述 符 位 于 ael 语句 中 时 ， 将 使 用 _aelete 方法 。 
@property 装饰 器 做 了 三 项 工作 。 
口 修改 在 描述 符 对 象 中 包装 的 方法 。 紧 跟 描 述 符 的 方法 被 修改 为 描述 符 的 _get ”方法 。 在 表 
达 式 中 使 用 时 ， 它 将 计算 值 。 
口 添加 method. setter 装饰 器 。 这 个 装饰 器 将 紧 随 其 后 的 方法 修改 为 描述 符 的 _set_ 方法 。 

当 在 赋值 语句 的 左 侧 使 用 该 名 称 时 ， 将 执行 给 定 的 方法 。 
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口 添加 method.deleter 装饰 需 。 这 个 装饰 器 将 紧 随 其 后 的 方法 修改 为 描述 符 的 _dqelete__- 
方法 。 当 在 ael 语句 中 使 用 该 名 称 时 ， 将 执行 给 定 的 方法 。 
描述 符 可 以 构建 用 于 提供 值 、 设 置 值 甚至 删除 值 的 属性 名 称 。 


6.9.4 补充 知识 





















































我 们 还 可 以 对 这 个 类 再 做 一 些 改进 。 下 面 将 介绍 两 种 用 于 初始 化 和 计算 的 高 级 技术 。 
1. 初始 化 


我 们 可 以 提供 一 种 方法 来 用 某 些 值 正确 初始 化 实例 。 这 个 更 改 让 我 们 可 以 执行 以 下 操作 : 
>>> from ch06_r08 import Leg 

>>> leg 2 = Leg(distance=38.2, time=7) 

>>> round(leg 2.rate, 2) 

5.46 

>>> leg 2.time=6.5 

>>> round(leg 2.rate, 2) 

5.88 






































本 例 说 明了 规划 帆船 航程 的 方法 。 如 果 航 程 是 38 .2 海里 ,目标 是 在 7 小 时 内 完成 ， 那么 帆船 的 
速度 必须 达到 每 小 时 5 .46 海里 。 如 果 想 缩短 半 个 小 时 ， 那 么 速度 必须 达到 每 小 时 5. 88 海里 。 6 
为 此 ， 需 要 修改 init__() 方 法 。 必 须 立 即 构建 内 部 的 dequeue 对 象 。 在 设置 每 个 属性 时 ， 
必须 使 用 内 部 的 _calculate() 方 法 来 跟踪 设置 。 


class Leg: 















































def _ init__(self, rate=None, time=None, 
self._changes= deque (maxlen=2) 
self._rate= rate 
if rate: self._calculatel('rate') 
self. time= time 
if time: self._ calculate('time') 
self._distance= distance 
if distance: self._calculate('distance') 


distance=None): 











首先 创建 dequeue 函数 。 随 着 每 个 单独 的 字段 值 都 被 设置 ， 更 改 将 被 记录 到 已 更 改 属性 的 队列 
中 。 如 果 设 置 了 两 个 字段 ， 则 会 计算 第 三 个 字段 。 

如 果 所 有 三 个 字段 都 被 设置 了 ， 那 么 最 后 更 改 的 两 个 字段 ( 在 本 例 中 即时 间 和 距离 ) 将 计算 另 一 
个 字段 ( 即 速度 ) 值 。 这 将 覆盖 之 前 提供 的 值 。 

2. 计算 

目前 ， 各 种 计算 都 隐藏 在 if 语句 中 。 这 样 修 改 起 来 非常 困难 ， 因 为 子 类 不 得 不 提供 整个 方法 ， 
而 不 是 简单 地 修改 计算 。 

可 以 使 用 内 省 〈introspection ) 技术 删除 i£ 语句。 使 用 显 式 的 计算 方法 ， 整 个 设计 会 更 好 : 


def calc_distance(self): 



















































































self._distance = self. time * self._rate 
def calc_time(self): 

self. time = self._ distance / self._rate 
def calc_rate(selft) : 
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改 


6. 


Self._ rate = self._ qistance / self. time 


以 下 版 本 的 _calculate() 将 使 用 上 述 方法 : 


def _calculate(self, change): 
if change not in self._changes: 
self._changes.append (change) 
compute = {'rate', 'time', 'distance'} - set(self._changes) 
if len(compute) == 1: 
name = compute.pop() 
method = getattr(self, 'calc_'+name) 
method() 


当 计 算 的 值 是 一 个 单 例 集 时 , 使 用 pop () 方 法 从 集中 提取 一 个 值 。 在 该 值 前 面 加 上 calc_, 为 计 
预期 值 的 方法 提供 名 称 。 

getattr() 函数 查找 self 对 象 请 求 的 方法 ， 然 后 作为 一 个 绑 定 函数 执行 。 它 可 以 根据 预期 的 结 
更 新 属性 。 
将 计算 重 构 为 单独 的 方法 会 使 得 类 更 易于 扩展 。 我 们 现在 可 以 创建 一 个 子 类 ， 这 个 子 类 包含 了 修 
版 的 计算 ， 而 且 还 保留 了 父 类 的 全 部 功能 。 












































9.5 延伸 阅读 


口 有 关 集 的 详细 信息 ， 请 参阅 4.7 节 。 
D aequeue 实际 上 是 一 个 为 追加 和 弹出 操作 高 度 优化 的 列表 ， 请 参阅 4.5 节 。 














高 级 类 设计 








本 章 主要 介绍 以 下 实例 。 
口 在 继承 和 扩展 之 间 选 择 
口 通过 多 重 继承 分 离 关 注 点 

口 利用 Python 的 鸭子 类 型 

口 管理 全 局 单 例 对 象 

口 使 用 更 复杂 的 结构 一 一 列表 映射 
口 创建 具有 可 排序 对 象 的 类 

口 定义 有 序 集合 

口 从 映射 列表 中 删除 元 素 





is-a 问题 





















































7.1 引言 


第 6 章 介 绍 了 一 些 关于 类 设计 基础 知识 的 实例 。 本 章 将 深入 研究 Python 中 的 类 。 

6.3 节 和 6.8 节 讨 论 了 面向 对 象 编程 的 核心 设计 方案 一 一 包装 与 扩展 。 可 以 通过 扩展 将 功能 添加 到 
类 中 , 也 可 以 创建 包装 现 有 类 的 新 类 来 添加 新 功能 。 Python 的 扩展 技术 有 多 种 , 提供 了 很 多 备 选 方案 。 

Python 类 可 以 从 多 个 超 类 中 继承 功能 。 这 可 能 会 导致 混乱 ， 但 是 简单 的 mixin 设计 模式 可 以 防止 
出 现 问题 。 

大 型 应 用 程序 可 能 需要 许多 类 或 模块 共享 一 些 全 局 数据 。 这 些 全 局 对 象 可 能 很 难 管理 。 但 是 ,我 
们 可 以 使 用 模块 来 管理 全 局 对 象 并 创建 一 个 简单 的 解决 方案 。 

第 4 章 研究 了 核心 的 内 置 数据 结构 。 本 章 将 扩展 内 置 数据 结构 ， 组 合 某 些 功能 来 创建 更 复杂 的 
对 象 。 


7.2 在 继承 和 扩展 之 间 选 择 一 is-a 问题 


5.6 节 和 6.7 节 讨 论 了 扩展 类 的 方法 。 在 这 两 个 实例 中 ， 扩 展 的 类 都 是 内 置 类 的 子 类 。 
扩展 有 时 被 称 为 泛 化 - 特 化 ( generalization-specialization ) 关系 ， 有 时 也 被 称 为 is-a 关系 。 
男 外 还 有 一 个 重要 的 语义 问题 可 以 概括 为 包装 与 扩展 问题 。 
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口 子 类 是 父 类 的 一 个 示例 吗 ? 其 实 这 就 是 is-a 关系 。 例 如 ，Python 内 置 的 counter 类 扩展 了 基 


类 aict。 

口 或 者 子 类 和 父 类 之 间 存 在 其 他 关系 ? 也 许 有 一 种 关联 ， 有 时 被 称 为 has-a 关系 。 例 如 ， 在 6.3 
节 中 ，counterStatistics 包装 了 一 个 countet 对 象 。 

如 何 区 分 这 两 种 技术 ? 





7.2.1 准备 工作 








这 个 问题 是 有 点 抽象 的 哲学 问题 ， 侧 重 于 本 体 论 ( ontology ) 思想 。 本 体 论 是 定义 存在 范畴 的 一 


种 方法 。 
在 扩展 对 象 时 ， 必 须 先 思考 以 下 问题 : 

“这 是 对 象 的 新 类 ， 还 是 对 象 现 有 类 的 混合 ? ” 

例如 ， 模 拟 一 副 纸 牌 的 方法 有 两 种 : 

口 作为 对 象 的 新 类 ， 扩 展 了 内 置 的 1ist 类 ; 

口 作为 包装 器 ， 组 合 了 内 置 的 1ist 类 以 及 其 他 功能 。 













































































副 牌 是 纸牌 的 集合 ， 核 心 元 素 就 是 底层 的 card 对 象 。 可 以 使 用 namedtuple() 简单 地 实现 





Card 的 定义 。 


>>> from collections import namedtuple 

>>> Card = namedtuple('Card', ('rank', 'suit')) 
>>> SUITS = '\u2660\u2661\u2662\u2663' 

>>> Spades, Hearts, Diamonds, Clubs = SUITS 
>>> Card(2, Spades) 

Card(rank=2, suit='%') 




















我 们 使 用 namedtuple () 创 建 了 具有 rank 属性 和 suit 属性 的 card 类 定义 。 
我 们 还 用 变量 suITs 定义 了 各 种 花色 , SUITS 是 一 个 Unicode 字符 串 。 为 了 更 容易 创建 特定 花色 
的 纸牌 ， 我 们 还 将 该 字符 串 分 解 为 了 4 个 只 有 一 个 字符 的 子 字 符 串 。 如 果 交 互 式 环境 没有 正确 地 显示 























Unicode 字符 ,那么 就 会 遇 到 问题 ,可 能 需要 将 操作 系统 环境 变量 PYTHONIOEN 
这 样 就 正确 地 设置 了 编码 。 

















CODING 设置 为 UTF-8， 
































\u2660 是 一 个 Unicode 字符 ， 可 以 通过 len (SUITS) == 4 来 确认 ; 如 恒 
否 有 多 余 的 空格 。 








长 度 不 是 4， 请 检查 是 





























本 实例 的 其 余部 分 将 使 用 cara 类 。 某 些 纸牌 游戏 使 用 一 副 52 张 的 纸牌 ， 
有 牌 盒 (shoe )。 牌 盒 是 一 个 便于 发 牌 的 盒子 ， 人 允许 庄 家 混 洗 多 副 (deck ) 纸牌 。 


















































而 其 他 游戏 中 可 能 使 用 








重要 的 是 ， 各 种 类 型 的 集合 〈 一 副 牌 、 牌 盒 、 内 置 列 表 ) 在 支持 的 功能 种 类 上 有 相当 大 的 重合。 





























它们 是 否 或 多 或 少 都 有 所 关联 ?或 者 它们 本 质 上 是 不 同 的 ? 


7.2.2 ”实战 演练 
本 实例 将 包装 6.2 节 的 实例 。 
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(1) 使 用 用 户 故 事 或 问题 描述 中 的 名 词 和 动词 来 识别 所 有 类 。 

(2) 寻找 各 种 类 的 功能 集中 的 重 靶 部分。 在 许多 情况 下 ， 关 系 直接 来 自问 题 描 述 本 身 。 在 前 面 的 
例子 中 ， 游 戏 可 以 从 一 副 牌 中 发 牌 ， 也 可 以 从 牌 盒 中 发 牌 。 

口 牌 盒 是 一 副 特 殊 的 牌 ， 包 含 多 副 52 张 牌 。 
口 一 副 牌 是 牌 盒 的 特殊 情况 ， 即 只 有 一 副 牌 的 牌 盒 。 
(3) 创建 本 体 来 说 明 类 之 间 的 关系 。 关 系 有 很 多 种 。 
有 些 类 是 相互 独立 的 ， 它 们 为 了 实现 用 户 故 事 而 联系 在 一 起 。 在 本 例 中 ，carq 对 象 引 用 了 一 个 
表示 花色 的 字符 串 ， 两 个 对 象 彼此 独立 。 许 多 纸牌 对 象 将 共享 一 个 通用 的 花色 字符 串 。 这 些 情况 只 是 
对 象 之 间 的 普通 引用 ,没有 特别 的 设计 考虑 。 
口 聚合 (aggregation ): 某 些 对 象 被 绑 定 在 集合 中 , 但 是 对 象 仍然 是 独立 的 。cara 对 象 可 能 会 聚 
合 到 一 个 Hand 集合 中 。 当 游戏 结束 时 ， 可 以 删除 Hana 对 象 ， 但 是 carg 对 象 将 继续 存在 。 
我 们 还 可 能 会 创建 一 个 引用 内 置 1ist 的 Deck 对 象 。 

口 组 合 (composition ): 某 些 对 象 被 绑 定 在 集合 中 ， 但 是 对 象 不 是 独立 存在 的 。 在 纸牌 游戏 中 ， 
手 牌 (Hand ) 不 能 没有 玩家 ( Player ), 也 可 以 说 Player 对 象 是 Hang 的 一 部 分 。 如 果 Player 
从 游戏 中 消除 ,那么 也 必须 删除 Hang 对 象 , 虽 然 这 种 关系 对 于 理解 对 象 之 间 的 关系 非常 重要 ， 
但 是 本 节 不 再 详细 说 明 ， 下 一 节 将 介绍 一 些 实际 的 注意 事项 。 

口 is-a 或 继承 (is-a or inheritance ): 这 表示 一 个 Shoe 是 具有 一 个 或 两 个 额外 功能 的 Deck。 这 种 

关系 是 设计 的 核心 。 本 实例 的 “扩展 一 一 继承 ”部 分 将 详细 研究 这 种 关系 。 

我 们 已 经 发 现 了 实现 关联 的 几 种 途径 。 聚 合 和 组 合 都 是 包装 技术 ， 继 承 是 扩展 技术 。 下 面 将 分 别 
讨论 包装 技术 ( 聚合 和 组 合 ) 和 扩展 技术 。 

1. 包装 一 一 聚合 和 组 合 

包装 是 理解 集合 ( collection ) 的 一 种 方式 。 集 合 可 能 是 一 个 聚合 独立 对 象 的 类 ， 也 可 能 是 一 个 包 
装 现 有 列表 的 组 合 ， 这 意味 着 List 集合 和 Deck 集合 将 共享 底层 的 carad 对 象 。 

(1) 定义 独立 的 集合 。 该 集合 可 能 是 一 个 内 置 集合 , 例如 集 ( set ) 列表 ( list ) 或 字典 (dict )。 
本 例 中 的 集合 是 一 个 包含 card 的 列表 。 

domain = [Card(r+1l,s) for r in range(13) for s in SUITS] 

(2) 定义 聚合 类 。 本 例 中 ， 类 的 名 称 具 有 _w 后 级, 但 是 不 推荐 这 种 命名 方法 ， 这 里 使 用 此 方法 只 
是 为 了 使 类 定义 之 间 的 区 别 更 加 清晰 。 稍 后 将 介绍 与 这 种 设计 略 有 不 同 的 变 体 。 

Glass. Deck:W: 

G) 使 用 该 类 的 init (方法 作为 提供 底层 集合 对 象 的 一 种 方法 。 该 方法 也 将 初始 化 任何 有 状 
态 的 变量 。 我 们 可 以 创建 一 个 迭代 器 来 发 牌 。 


def _ init _(self, cards:List[Card]): 
self.cards = cards.copy() 
self.deal_iter = iter(cards) 


该 步骤 使 用 了 一 个 类 型 提示 List [card] 。typing 模块 提供 了 List 的 必要 定义 。 
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(4) 如 果 需 要 ， 提 供 其 他 方法 替换 集合 或 更 新 集合 。 在 Python 中 很 少 这 样 操作 ， 因 为 可 以 直接 访 











问 底层 的 cards 属性 。 但 是 ， 提供 替换 self .cargds 值 的 方法 可 能 会 更 有 用 。 














(5) 提供 适合 聚合 对 象 的 方法 。 


def shuffle(self) : 
random.shuffle(self.cards) 
self.deal_iter = iter(self.cards) 
def deal(self) -> Card: 
return next (self.deal_iter) 


shuffle() 方 法 随机 化 了 内 部 列表 对 象 self .cards ，deal() 对 象 创建 了 一 个 可 用 于 遍历 


























self.cards 列表 的 迭代 器 。 我 们 为 deal () 添加 了 一 个 类 型 提示 ， 以 说 明 它 返回 一 个 cara 实例 。 








使 用 该 类 的 步 又 如 下 所 示 。 我 们 将 共享 一 个 carg 对 象 列表 。 在 本 例 中 ，domain 变量 由 一 个 列 




















表 解 析 式 创建 ， 该 列表 解析 式 生成 了 由 13 个 牌 面 大 小 和 4 种 花色 组 成 的 全 部 52 个 组 合 。 








>>> domain = list(Card(r+1l,s) for r in range(13) for s in SUITS) 
>>> len(domain) 
52 


可 以 使 用 aomain 集合 中 的 元 素来 创建 共享 相同 底层 cara 对 象 的 第 二 个 聚合 对 象 。 我 们 将 从 





domain 变量 中 的 对 象 列 表 构 建 Deck_w 对 象 。 


>>> import random 
>>> from ch07_r01 import Deck W 
>>> d = Deck W(domain) 


创建 Deck_w 对 象 之 后 ， 就 可 以 使 用 它 的 独特 功能 了 。 


>>> random.seed(1) 

>>> d.shuffle() 

>>> [d.deal() for _ in range(5)] 
[Card(rank=13, suit='9'), 
Card(rank=3, suit='9'), 
Card(rank=10, suit='9'), 
Card(rank=6, suit='0'), 
Card(rank=1, suit='0')] 


我 们 设置 了 固定 的 随机 数 生成 器 种 子 值 , 使 纸牌 具有 特定 的 顺序 。 这样 才能 使 用 单元 测试 。 随后 ， 





















































根据 随机 种 子 对 这 副 牌 进行 混 洗 。 一 旦 确定 种 子 ， 结果 将 是 一 致 不 变 的 ， 这 便于 进行 单元 测试 。 我 们 

















可 以 从 一 副 牌 中 分 发 5 张 纸牌 ， 这 说 明了 Deck_w 对 象 a 如 何 与 somain 列表 共享 一 个 对 象 池 。 























我 们 可 以 删除 Deck_w 对 象 a, 并 从 aomain 列表 中 创建 一 个 新 的 deck( 一 副 牌 ) 这 是 因为 cara 














对 象 不 是 组 合 的 一 部 分 。cara 对 象 可 以 脱离 Deck_w 集合 而 独立 存在 。 


2. 扩展 一 一 继承 
定义 扩展 对 象 集合 的 类 的 方法 如 下 所 示 。 我 们 将 定义 一 个 peck， 作 为 包装 现 有 列表 的 聚合 。 列 








表 和 Deck 将 共享 底层 的 carq 对 象 。 





法 ， 

















(1) 将 扩展 类 定义 为 一 个 内 置 集合 的 子 类 。 对 于 本 例 ， 名 称 具 有 _x 后 级 。 我 们 不 推荐 这 种 命名 方 
这 里 使 用 此 方法 只 是 为 了 使 类 定义 之 间 的 区 别 更 加 清晰 。 


class Deck X(1ist) : 
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7.2 在 继承 和 扩展 之 间 选 择 








该 语句 清晰 而 正式 地 说 明 : Deck 是 一 个 列表 。 
(2) 使 用 从 1ist 类 继承 的 init__() 方法 。 该 步骤 不 需要 再 输入 该 方法 的 代码 。 
(3) 使 用 1ist 类 的 其 他 方法 添加 、 更 改 或 删除 Deck 中 的 元 素 。 该 步 又 也 不 需要 再 输入 对 应 的 方 
法 代码 。 
(4) 为 扩展 过 的 对 象 提供 适当 的 方法 。 
def shuffle(self) : 
random.shufflel(self) 
self.deal_iter = iter(self) 


def deal(self) -> Card: 
return next (self.deal_iter) 




















甘 


shuffle() 方 法 将 self 对 象 作为 一 个 整体 进行 随机 化 , 因为 它 是 列表 的 扩展 。deal () 对 象 创建 
了 一 个 可 用 于 遍历 self .cards 列表 的 迭代 器 。 我 们 为 aeal () 添加 了 一 个 类 型 提示 ， 说 明 它 返回 一 
个 card 实例 。 
使 用 该 类 的 步骤 如 下 。 首 先 ， 构 建 一 副 牌 。 
>>> from ch07_r01 import Deck_X 
>>> d2 = Deck _X(Card(r+1,s) for r in range(13) for s in SUITS) 
>>> len(d2) 
52 
我 们 使 用 生成 器 表达 式 构建 了 card 对 象 ,我 们 可 以 按照 使 用 1ist () 类 函数 的 方式 使 用 Deck_x() 
类 函数 。 在 本 例 中 ， 我 们 从 生成 器 表达 式 构建 了 一 个 Deck_x 对 象 ， 同 样 ， 也 可 以 构建 一 个 1ist。 
我 们 没有 提供 内 置 _ 1en _() 方 法 的 实现 ,我 们 从 1ist 类 继承 了 该 方法 , 因此 不 用 再 重复 实现 。 
Deck_X 实现 特定 功能 的 结果 看 起 来 与 男 一 个 实现 Deck_w 一 样 。 
>>> random.seed(1) 
>>> d2.shuffle() 
>>> [d2.deal() for _ in range(5)] 
[Card(rank=13, suit='9'), 
Card(rank=3, suit='9'), 
Card(rank=10, suit='9'), 
Card(rank=6, suit='0'), 
Card(rank=1, suit='0')] 


我 们 设置 了 随机 数 生成 器 种 子 值 ， 洗 牌 ， 然 后 分 发 了 5 张 牌 。 扩 展 方法 适用 于 Deck_x， 也 适用 
于 Deck_W。shuffle() 方 法 和 deal () 方 法 也 都 能 正常 执行 。 

















































































































7.2.3 工作 原理 


Python 查找 方法 (或 属性 ) 的 机 制 如 下 。 
(1) 在 类 中 搜索 方法 或 属性 。 
(2) 如 果 当 前 类 中 没有 定义 该 名 称 ， 则 在 所 有 父 类 中 搜索 方法 或 属 
这 就 是 Python 实现 继承 的 方式 。 搜 索 父 类 可 以 确保 两 点 : 

口 任何 父 类 中 定义 的 方法 都 可 用 于 所 有 子 类 ; 
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口 任何 子 类 都 可 以 覆盖 一 个 方法 来 替换 一 个 超 类 方法 。 
因此 ，1ist 类 的 子 类 继承 了 父 类 的 所 有 功能 ， 它 是 内 置 1ist 类 的 一 种 特殊 变 体 。 
这 也 意味 着 所 有 方法 都 可 能 被 子 类 覆盖 。 某 些 语言 可 以 锁定 方法 ， 防 止 其 被 扩展 ， 例 如 ，C ++ 和 
Java 等 语言 使 用 的 private 关键 词 。Python 没有 相关 机 制 ， 子 类 可 以 覆盖 任何 方法 。 
如 果 需 要 显 式 地 引用 超 类 的 方法 , 那么 可 以 使 用 super () 函数 强制 搜索 超 类 。 该 函数 允许 子 类 通 
过 包装 方法 的 超 类 版 本 来 添加 功能 。super () 函数 的 使 用 方法 如 下 所 示 : 
def some method(self): 
# 执行 其 他 操作 
super() .some_ method!() 
在 本 例 中 ，some_method() 对 象 会 执行 一 些 其 他 操作 ， 然 后 执行 该 方法 的 超 类 版 本 。 这 使 我 们 
可 以 方便 地 扩展 类 的 某 个 方法 。 我 们 可 以 保留 超 类 的 功能 ， 同 时 添加 子 类 特有 的 功能 。 
















































































7.2.4 补充 知识 


设计 类 时 ， 必 须 在 以 下 几 种 基本 技术 之 间 进 行 选择 。 
口 包装 : 这 种 技术 创建 一 个 新 类 。 所 有 必需 的 方法 都 必须 定义 。 定 义 所 需 的 方法 可 能 需要 大 量 
的 代码 。 包 装 可 以 分 解 为 两 种 实现 方式 。 
晶 聚合 : 被 包装 的 对 象 独立 于 包装 器 。Deck_W 示例 显示 了 card 对 象 和 纸牌 列表 如 何 独立 于 
类 。 当 任意 Deck_w 对 象 被 删除 时 ， 底 层 列表 将 继续 存在 。 
昌 组 合 : 被 包装 的 对 象 不 是 独立 存在 的 ， 它 们 是 组 合 的 重要 组 成 部 分 。 由 于 Python 的 引用 计 
数 ， 这 涉及 一 个 微妙 的 困难 。 稍 后 将 详细 介绍 引用 计数 。 
口 通过 继承 扩展 : 这 是 一 种 is-a 关系 。 当 扩展 一 个 内 置 的 类 时 ， 可 以 从 超 类 中 获得 很 多 方法 。 
Deck_X 示例 通过 创建 一 个 Deck 作为 内 置 1ist 类 的 扩展 展示 了 这 种 技术 。 
在 研究 对 象 的 独立 存在 性 时 ， 有 一 个 重要 的 考虑 因素 。 我 们 并 不 是 真正 地 从 内 存 中 删除 对 象 。 相 
反 ，Python 使 用 引用 计数 这 种 技术 来 跟踪 对 象 的 使 用 次 数 。 例 如 ，aqael deck 语句 并 没有 真正 地 删除 
deck 对 象 ， 只 是 删除 了 aeck 变量 ,这样 就 减少 了 底层 对 象 的 引用 计数 。 如 果 引 用 计数 为 零 , 那么 对 
象 将 不 再 被 使 用 ， 也 就 可 以 删除 该 对 象 了 。 















































































































































请 思考 以 下 示例 : 
>>> C_2s = Card(2, Spades) 
>>> C_2S 


Card(rank=2, Suit= ' 则 ' ) 
>>> another = c 2s 

>>> another 
Card(rank=2, suit='%') 


此 示例 包含 一 个 card (2，Sspades) 对 象 以 及 两 个 引用 card (2，Sspades) 对 象 的 变量 c_2s 和 
another。 

如 果 使 用 ael 语句 删除 其 中 一 个 变量 , 那么 男 一 个 变量 仍然 有 一 个 指向 底层 对 象 的 引用 。 在 删除 
这 两 个 变量 之 前 ， 无 法 从 内 存 中 删除 card (2，spades) 对象 。 
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由 于 引用 计数 技术 , 对 于 Python 程序 员 来 说 , 聚合 和 组 合 之 间 的 区 别 是 无 关 紧要 的 。 在 不 使 
动 垃 圾 回收 或 引用 计数 器 的 语言 中 ， 组 合 很 重要 ， 


对 象 不 会 被 意外 地 清除 掉 。 我 们 通常 更 关注 聚合 ， 
7.2.5 延伸 阅读 


























用 自 
因为 对 象 可 能 会 被 意外 地 清除 掉 。 而 在 Python 中 ， 
因为 不 再 使 用 的 对 象 是 自动 删除 的 。 























口 第 4 章 介 绍 了 内 置 集 合 。 第 6 章 讨 论 了 如 何 定义 简单 集合 。 
口 63 节 使 用 了 一 个 单独 的 处 理 有 关 处 理 详细 信息 的 类 来 包装 另 一 个 类 。 作 为 对 比 , 6.8 节 将 复杂 
的 计算 作为 特性 (property ) 放 入 类 中 ， 这 种 设计 依赖 于 扩展 。 
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LAE 


7.2 节 讨论 了 Deck 类 的 定义 ，Deck 类 是 纸牌 对 象 Card 的 组 合 。 在 该 节 实 例 中 ， 我 们 设 定 每 个 
Card 对 象 只 有 rank 属性 和 suit 属性 。 这 就 带 来 了 一 些小 问题 。 


口 纸牌 总 是 显示 数字 形式 的 牌 面 大 小 。 我 们 没有 看 到 常规 纸牌 上 的 J、Q 或 K， 而 是 看 到 了 11、 
12 和 113。 同样 ，Ace 显示 为 1 而 不 是 A。 



























































口 许多 纸牌 游戏 ， 如 二 十 一 点 ( Blackjack) 和 Cribbage， 为 每 个 牌 面 大 小 都 分 配 了 点 数 。 一 般 


来 说 ， 花 牌 为 10 点 。 在 二 十 一 点 中 ，Ace 有 两 个 不 同 的 点 数 ， 可 以 是 1 点 ， 也 可 以 是 10 点 ， 
人 体 取决 于 手 牌 中 其 他 牌 的 总 点 数 。 


如 何 处 理 纸牌 游戏 规则 的 所 有 变 体 呢 ? 
7.3.1 准备 工作 


card 类 是 两 组 功能 的 混合 。 


口 基本 功能 ， 如 牌 面 大 小 (zank ) 和 花色 (suit )。 
口 游戏 特定 的 功能 



























































， 如 点 数 。 对 于 Cribbage 游戏 ， 不 管 在 任何 情况 下 ， 点 数 始 终 是 不 变 的 。 然 
而 对 于 二 十 一 点 ，Hand ( 手 牌 ) 和 Hand 中 的 card 对 象 之 间 存 在 某 种 关系 。 
Python 允许 一 个 类 具有 多 个 父 类 。 一 个 类 可 以 同时 具有 cara 超 类 和 GameRules 超 类 。 
为 了 理解 这 种 设计 ， 经 常 将 各 种 类 层次 结构 分 为 两 组 功能 。 
口 基本 功能 : 包括 rank 和 suit。 
口 mixin 功能 : 这 些 功能 混合 到 了 类 定义 中 。 

一 个 有 效 的 类 定义 应 当 同 时 具有 基本 功能 和 mixin 功能 。 
7.3.2 ”实战 演练 

(1) 定义 基本 类 。 

class Card: 


-Lot SE, (EAN 
def _ init (self, 






































"Suit) 
rank, suit): 








Super()._ init_ _() 
self.rank = rank 
self.suit = suit 
def _ repr__(self): 
return "{rank:2d} {suit}".formatl( 
rank=self.rank, suit=self.suit 


) 











我 们 定义 了 一 个 适合 牌 面 大 小 为 2 到 10 的 通用 card 类 ， 并 通过 super () .init __() 添 加 了 








对 所 有 超 类 初始 化 的 显 式 调 用 。 
(2) 定义 子 类 来 处 理 特殊 情况 。 
class AceCard (Card): 

def _ repr__(self): 


return " A {suit}".formatl( 
rank=self.rank, suit=self.suit 














) 
class FaceCard (Card): 
def _ repr__(self): 
names ne {Ll "VU" 42 TO" Ls "KT 
return " {name} {suit}".formatl( 
rank=self.rank, suit=self.suit, 
name=names [self.rank] 


) 


我 们 定义 了 cara 类 的 两 个 子 类 。Acecard 类 处 理 Ace 的 特殊 格式 规则 ，Facecard 类 处 理 J、Q 


和 的 格式 规则 。 


(3) 定义 一 个 mixin 超 类 ， 标 识 将 要 添加 的 附加 功能 。 在 某 些 情况 下 ，mixin 类 将 从 一 个 常见 的 抽 


























象 类 继承 功能 。 本 例 将 使 用 一 个 具体 的 类 来 处 理 从 Ace 到 10 的 规则 。 


class CribbagePoints : 
def polints(self) : 
return self.rank 


对 于 Cribbage 游戏 ， 大 多 数 牌 的 点 数 等 于 牌 面 大 小 。 
(4) 为 各 种 功能 定义 具体 的 mixin 子 类 。 
class CripbbageFacePoints (CribbagePoints): 


def points (self): 
return 10 


对 于 花 牌 的 三 种 牌 面 大 小 ， 点 数 总 是 10。 























(5) 创建 组 合 基本 类 和 mixin 类 的 类 定义 。 虽然 从 技术 上 来 说 可 以 添加 独特 的 方法 定义 , 但 往往 
导致 混乱 。 我 们 的 目标 是 拥有 两 个 独立 的 功能 集 ， 它 们 被 简单 地 合并 在 一 起 来 创建 最 终 的 类 定义 。 











class CribpbageAce (AceCard, CripbbagePoints): 
pass 


class CribbageCard(Card, CribbagePoints): 
pass 





class CribbageFace (FaceCard, CribbageFacePoints): 
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pass 





(6) 创建 工厂 函数 (或 工厂 类 )， 以 根据 输入 参数 创建 适当 的 对 象 。 


def 


make_card(rank, suit): 

if rank == 1: return CribbageAce (rank, suit) 

if 2 <= rank < 11: return CribbageCard (rank, suit) 
if 11 <= rank: return CribbageFace (rank, suit) 

















(7) 可 以 使 用 该 函数 创建 一 副 牌 ( deck )。 


>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
52 

>>> 
[xK 


from ch07_r02 import make card, SUITS 
import random 
random.seed(1) 

deck = [make card(rank+l, 
random.shuffle (deck) 
len(deck) 


Suit) for rank in range(13) for suit in SUITS] 


deck[:5] 
Qv 3 9, 10 9, 60, AD0] 




















我 们 为 随机 数 生成 器 设 定 了 固定 的 种 子 值 ， 确 保 每 次 使 用 shuff1e() 函数 时 结果 都 是 一 样 的 。 


这 样 操作 之 后 才 可 能 进行 单元 测试 。 






























































我 们 使 用 列表 解析 式 生 成 了 一 个 包含 所 有 13 个 牌 面 大 小 和 4 种 花色 的 纸牌 列表 。 该 列表 是 一 个 


拥有 52 个 独立 对 象 的 集合 。 每 个 对 象 都 属于 两 个 类 层次 结构 。 每 个 对 象 既是 card 类 的 子 类 ， 又 是 



































XE 


CribbagePoints 类 的 子 类 。 这 意味 着 两 个 功能 集 都 可 用 于 所 有 对 象 。 


例如 ， 





可 以 对 每 个 cara 对 象 的 points () 方 法 求 值 。 


>>> sum(c.points() for c in deck[:5]) 


30 























这 手 牌 有 一 张 花 牌 ,再 加 上 3、10、6 和 Ace， 所 以 总 点 数 为 30。 


7.3.3 工作 原理 
Python 查找 方法 (或 属性 ) 的 机 制 如 下 。 


(D 在 类 中 搜索 方法 或 属性 。 



































(2) 如 果 当 前 类 中 没有 定义 该 名 称 ， 则 在 所 有 父 类 中 搜索 方法 或 属性 。 父 类 的 搜索 依照 方法 解析 
顺序 ( method resolution order，MRO )。 

在 创建 类 时 ,计算 方法 解析 顺序 。 计 算 所 使 用 的 算法 被 称 为 C3。 更 多 信息 请 参阅 https:/en.wikipedia. 
org/wikiC3_linearization。 该 算法 确保 每 个 父 类 都 被 搜索 一 次 , 还 确保 将 超 类 的 相对 顺序 保存 起 来 ， 以 
便 所 有 子 类 都 在 它们 的 父 类 之 前 被 搜索 。 

可 以 使 用 类 的 mro () 方 法 查看 方法 解析 顺序 ， 示 例如 下 : 


>>> C 
>>> C 
10 9 

>>> C 
































= deck[5] 


. class_ . name 





'CripbbageCard' 
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>>> C. class_ .mro() 
[<class 'ch07 _r02 .CribbageCcard'>，<class 'ch07 r02.Card'>, 
<class 'ch07_r02.CribbagePoints'>，<class '‘'object'>] 


我 们 从 一 副 牌 中 挑 了 一 张 牌 c。 纸牌 c 的 _、 class _ ”属性 是 对 类 的 引用 。 在 本 例 中 ， 类 的 名 称 为 
CribbageCard。 该 类 的 mro () 方 法 显示 了 用 于 解析 名 称 的 顺序 。 

(1) 首先 搜索 cribbagecard 类 本 身 。 

(2) 如 果 没 有 找到 ， 那 么 搜索 card 类 。 

(3) 如 果 还 没有 找到 ， 则 接着 搜索 cribbagePoints 类 。 

(4) 最 后 搜索 object 类 。 

类 定义 通常 使 用 内 置 的 aict 对 象 来 存储 方法 定义 。 这 意味 着 搜索 是 非常 快 的 哈 希 查找 ( hash 
lookup )。 相 对 于 搜索 carg 来 说 ， 搜 索 object (在 前 面 的 任何 一 个 类 中 都 没有 发 现 ) 的 时 间 开 销 大 
约会 多 3%。 

如 果 执 行 了 一 百 万 次 操作 ， 那 么 可 能 会 看 到 如 下 结果 : 


Cardq. repr 1.4413 
object .str 1.4789 


我 们 比较 了 查找 定义 在 card 中 的 _repr _() 的 时 间 和 查找 定义 在 object 中 的 _str __() 的 
时 间 ， 重 复 一 百 万 次 的 额外 时 间 开 销 为 0.03 秒 。 
这 种 额外 开销 可 以 忽略 不 计 ， 因 此 方法 顺序 解析 功能 是 构建 类 层次 结构 设计 的 重要 途径 。 

















































































































7.3.4 补充 知识 


关注 点 有 很 多 种 ， 可 以 进行 如 下 分 离 。 

口 状态 的 持久 性 和 状态 的 表示 : 可 以 通过 添加 方法 来 管理 向 一 致 外 部 表示 的 转换 。 

口 安全 性 : 可 能 涉及 执行 一 致 的 授权 检查 的 mixin 类 。 

口 日 志 记录 : 在 可 能 被 定义 的 多 个 类 中 创建 一 致 的 日 志 记 录 器 的 mixin 类 。 

口 事件 信号 和 更 改 通知 : 在 这 种 情况 下 ， 可 能 会 产生 生成 状态 更 改 通知 的 对 象 以 及 订阅 这 些 通 
知 的 对 象 。 这 种 方式 有 时 被 称 为 观察 者 设计 模式 。GUI 控件 可 以 观察 对 象 的 状态 ， 当 对 象 发 
生 改 变 时 ， 将 会 通知 GUI 控件 刷新 显示 。 

例如 ， 可 以 添加 一 个 mixin 类 来 引入 日 志 记录 。 我 们 首先 定义 这 个 类 ， 以 便 第 一 个 提供 给 超 类 列 

表 。 由 于 在 MRO 列表 中 顺序 靠 前 ， 因 此 super () 函数 将 在 类 列表 中 找到 稍 后 定义 的 方法 。 

该 类 将 向 每 个 类 添加 logger 属性 : 


class Logged: 

def __init_ _(self, *args, **kKkw): 
self.logger = logging.getLogger(self._ class .name ) 
super()._ init _(*args, **kw) 

def points (self): 
p = super() .points() 
self.logger.debug ("points {0}".format(p)) 
return p 
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请 注意 ， 我 们 使 用 super () .__init__() 执 行 MRO 中 定义 的 任何 其 他 类 的 __init__() 方 法 。 
正如 刚刚 指出 的 ， 这 通常 是 用 一 个 类 定义 一 个 对 象 的 基本 功能 的 最 简单 方法 ， 而 其 他 所 有 mixin 类 只 
是 为 该 对 象 添 加 功能 。 

我 们 为 points () 提供 了 一 个 定义 。 因 此 , 将 在 MRO 列表 中 搜索 其 他 类 的 points () 实现, 然后 
记录 通过 另 一 个 类 的 方法 计算 得 到 的 结果 。 

以 下 是 一 些 包含 Logged mixin 功能 的 类 : 












































class LoggedCribbageAce (Logged, AceCard, CribbagePoints): 
pass 

class LoggedCribbageCard (Logged, Card, CribbagePoints): 
pass 








class LoggedCribbageFace (Logged, FaceCard, CripbbageFacePoints): 
pass 









































每 个 类 都 是 由 三 个 单独 的 类 定义 构建 的 。 由 于 Loggeg 类 是 首先 提供 的 ， 因 此 可 以 确信 所 有 类 都 
具有 一 致 的 日 志 记 录 , 还 可 以 确信 Loggeda 中 的 任何 方法 都 可 以 使 用 super () 在 类 定义 中 遵循 Logged 
的 超 类 列表 中 找到 一 个 实现 。 

使 用 这 些 类 之 前 ， 还 需要 稍微 修改 一 下 应 用 程序 : 

def make_logged cardl(rank, suit): 

if rank == 1: return LoggedCribbageAce (rank, suit) 
if 2 <= rank < 11: return LoggedCribbageCard(rank, suit) 
if 11 <= rank: return LoggedCribbageFace (rank, suit) 

我 们 需要 使 用 上 述 函 数 禁 代 make_card ()。 该 函数 将 使 用 另 一 组 类 定义 。 

使 用 该 函数 构建 一 副 牌 的 实例 的 示例 如 下 : 

deck = [make_logged card(rank+1, suit) 


for rank in range(13) 
for suit in SUITS] 
















































































在 创建 这 副 牌 时 ,我 们 用 make_logged_card() 替 代 了 make_cargd()。 上 述 操作 完成 后 ， 就 可 
以 用 一 致 的 方式 从 许多 类 中 获得 详细 的 调试 信息 了 。 


7.3.5 延伸 阅读 

















口 在 考虑 多 重 继承 时 ， 必 须 思 考 一 下 包装 顺 是 否 是 一 种 更 好 的 设计 。 请 参阅 7.2 市 。 


7.4 利用 Python 的 鸭子 类 型 


在 大 部 分 涉及 继承 的 设计 中 , 超 类 和 一 个 或 多 个 子 类 之 间 存 在 一 种 很 清晰 的 关系 。7.2 节 和 6.7 节 
讨论 了 涉及 子 类 - 超 类 关系 的 扩展 。 

Python 没有 抽象 超 类 的 正式 机 制 。 但 是 ， 标 准 库 具 有 文 持 创建 抽象 类 的 abc 模块 。 

当然 ， 该 模块 并 不 是 必需 的 。Python 依赖 鸭子 类 型 来 定位 类 中 的 方法 。 "鸭子 类 型 ”这 个 名 字 
源 自 : 





























“ 当 看 到 一 只 鸟 ， 它 走路 像 鸭 子 ， 游 泳 像 鸭 子 ， 叫 声 像 鸭子 ， 那 么 这 只 乌 就 可 以 被 称 为 
了 鸭子 。 
这 人 句 话 最 初 引 自 James Whitcomb Riley。 我 们 有 时 候 将 其 作为 溯 因 推理 (abductive reasoning ) 的 
一 种 概括 : 从 一 个 观测 得 到 包含 该 观测 的 更 为 完整 的 理论 。 在 Python 类 关系 中 , 如果 两 个 对 象 具有 相 
同 的 方法 和 属性 ， 那 么 与 具有 一 个 公共 超 类 的 效果 相同 。 即 使 除了 object 类 之 外 没有 公共 超 类 的 定 
义 ， 它 也 是 有 效 的 。 
可 以 将 方法 和 属性 的 集合 称 为 类 的 签名 。 签 名 可 以 唯一 地 标识 类 的 属性 和 行为 。 在 Python 中 , 签 
名 是 动态 的 ， 匹 配 只 是 在 对 象 的 命名 空间 中 查找 名 称 。 
如 何 利用 鸭子 类 型 ? 


7.4.1 准备 工作 


通常 很 容易 创建 一 个 超 类 并 确保 所 有 的 子 类 都 扩展 这 个 超 类 。 但 在 某 些 情况 下 ， 这 种 方法 可 能 非 
常 不 方便 。 例 如 ， 如 果 一 个 应 用 程序 分 散在 多 个 模块 中 ， 就 很 难 提取 出 一 个 公共 的 超 类 并 将 其 独自 放 
在 一 个 单独 的 模块 中 ， 以 便 被 广泛 包含 。 

相反 ， 有 时 候 更 容易 避免 使 用 一 个 公共 的 超 类 ， 而 简单 地 使 用 鸭子 测试 检查 两 个 类 是 否 等 价 一 一 如 
果 两 个 类 具有 相同 的 方法 和 属性 ,那么 它们 实际 上 是 某 个 没有 用 Python 代码 正式 实现 的 超 类 的 成 员 。 

本 实例 将 使 用 一 对 简单 的 类 来 演示 鸭子 测试 。 这 两 个 类 将 模拟 掷 一 对 仍 子 。 虽 然 问题 很 简单 ， 但 
是 我 们 可 以 轻松 创建 各 种 实现 。 

















































































































7.4.2 ”实战 演练 


(1) 定义 一 个 类 以 及 必要 的 方法 和 属性 。 在 本 例 中 ， 该 类 有 一 个 保留 最 后 一 搓 结 果 的 aice 属性 ， 
还 有 一 个 改变 山 子 状态 的 rol1 () 方 法 。 


class Dicel: 

def _ init__(self, seed=None): 
self._rng = random.Random (seed) 
self.roll() 

def roll (self): 
self.dice = (self._rng.randint (1,6), 

self._rng.randint (1,6)) 

return self.dice 


(2) 定义 其 他 具有 相同 方法 和 属性 的 类 。 下 面 有 一 个 更 复杂 的 定义 ， 它 创建 了 一 个 与 Dicel 类 具 
有 相同 签名 的 类 。 


class Die: 
def _ init_ _(self, rng): 
self._rng= rng 
def roll (self): 
return self._rng.randint (1, 6) 
class Dice2: 
def __init__(self, seed=None): 
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self._rng = random.Random(seed) 
self. _ dice = [Die(self._ rng) for _ in range(2)] 
self.roll() 

def roll (self): 
self.dice = tuple(d.roll() for d in self._ dice) 
return self.dice 


该 类 引入 了 一 个 附加 属性 _aice。 这 种 变化 不 会 改变 dice 属性 和 rol1 () 方 法 的 广播 接口 。 
此 刻 ， 这 两 个 类 可 以 自由 互 换 : 
def roller (dice class, seed=None, *, samples=10): 

dice = dice_ class (seed) 


for _ in range(samples): 
yield dice.roll() 


我 们 可 以 按 如 下 方式 使 用 该 函数 : 


>>> from ch07_r03 import roller, Dicel, Dice2 
>>> list(roller(Dicel, 1, samples=5)) 

[(1, 3), (1, 4), (4, 4), (6, 4), (2, 1)] 

>>> list(roller(Dice2, 1, samples=5)) 

[(1, 3), (1, 4), (4, 4), (6, 4), (2, 1)] 


由 Dicel 和 Dice2 构建 的 对 象 非常 相似 ， 很 难 区 分 。 
当然 ， 我 们 可 以 打破 常规 ， 查 找 _dice 属性 来 区 分 这 两 个 类 ， 也 可 以 使 用 class。_ 来 区 分 这 
两 个 类 。 





















































7.4.3 工作 原理 


当 我 们 编写 一 个 namespace .name 形式 的 表达 式 时 ，Python 将 在 给 定 的 命名 空间 中 查找 name。 
该 算法 的 工作 原理 如 下 。 

(1) 在 对 象 的 self._ dict__ 集合 中 搜索 name。 使 用 _slots ， 某 些 类 定义 将 节省 空间 。 关 
于 这 种 优化 的 更 多 信息 ， 请 参阅 6.5 节 。 这 通常 是 查找 属性 值 的 方法 。 

(2) 在 对 象 的 self. class_ .dict_ _ 集合 中 搜索 name。 这 通常 是 查找 方法 的 方式 。 

(3) 正如 7.2 节 和 7.3 节 所 指出 的 ， 搜 索 可 以 继续 遍历 类 的 所 有 超 类 。 该 搜索 按照 已 定义 的 方法 解 
析 顺 序 完成 。 

搜索 有 两 种 基本 结果 。 
口 值 是 不 可 调用 的 对 象 。 这 就 是 值 ， 是 属性 的 典型 情况 。 
口 属性 的 值 是 类 的 绑 定 方法 。 对 于 普通 的 方法 和 特性 (property ) 都 是 如 此 。 关 于 特性 的 更 多 信 
息 ， 请 参阅 6.8 节 。 必 须 执行 绑 定 方法 。 对 于 简单 的 方法 ,参数 在 方法 名 之 后 的 () 中 。 对 于 特 
性 ， 不 存在 具有 方法 参数 值 的 () 








































































































0 我 们 没有 具体 介绍 描述 符 的 用 法 。 对 于 最 常见 的 用 例 ， 描 述 符 并 不 重要 。 


其 实质 是 通过 gict (或 ”slots _) 对 名 称 的 集合 进行 搜索 。 如 果 对 象 有 一 个 公共 的 超 类 ， 
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那么 肯定 会 找到 一 个 匹配 的 名 称 。 如 果 对 象 没 有 公共 的 超 类 ， 则 无 法 保证 ， 必 须要 依靠 严谨 的 设计 和 
良好 的 测试 覆盖 率 。 


7.4.4 补充 知识 


在 讨论 decimal 模块 时 ， 我 们 看 到 了 一 个 数字 类 型 的 示例 ， 它 与 其 他 所 有 数值 类 型 都 不 同 。 为 
了 很 好 地 实现 这 一 点 , numbers 模块 包含 了 将 类 注册 为 Numper 类 层次 结构 的 一 部 分 的 概念 。 这 将 在 
不 使 用 继承 的 情况 下 把 新 类 注入 到 层次 结构 中 。 

codecs 模块 使 用 类 似 的 技术 添加 新 的 数据 编码 。 我 们 可 以 定义 一 个 新 的 编码 ， 并 在 不 使 用 codecs 
模块 中 定义 的 任何 类 的 情况 下 注册 它 。 

之 前 我 们 注意 到 ， 搜索 类 的 方法 涉及 描述 符 的 概念 。Python 在 内 部 使 用 描述 符 对 象 创建 对 象 的 可 
获取 ( gettable ) 和 可 设置 ( settable ) 的 特性 。 

描述 符 对 象 必须 实现 一 些 特殊 方法 的 组 合 ， 比 如 _get 、_ set 和 qdelete 。 当 属性 出 
现在 表达 式 中 时 ，_get 将 用 于 找到 该 值 。 当 属性 出 现在 赋值 语句 的 左 侧 时 , 则 使 用 __set_ 方法 。 
在 del 语句 中 , 使 用 gelete_ 方 法。 

描述 符 对 象 充 当中 介 ， 因 此 可 以 在 各 种 上 下 文中 使 用 简单 的 属性 。 我 们 很 少 直 接 使 用 描述 符 ， 可 
以 使 用 eproperty 装饰 需 构 建 描述 符 。 









































































































































7.4.5 延伸 阅读 


口 7.2 节 实例 中 隐 含 了 鸭子 类 型 问题 ， 如 果 利 用 鸭子 类 型 ， 就 说 明 两 个 类 是 不 一 样 的 。 当 绕 过 继 
承 时 ， 也 就 隐 式 地 说 明 is-a 关系 不 成 立 。 
D 在 73 节 ， 还 可 以 利用 鸭子 类 型 创建 可 能 没有 简单 继承 层次 结构 的 复合 类 。 由 于 mixin 设计 模 
式 使 用 起 来 非常 简单 ， 因 此 很 少 需 要 鸭子 类 型 。 


7.5 管理 全 局 单 例 对 象 


Python 环境 包含 了 许多 隐 含 的 全 局 对 象 。 这 些 对 象 提供 了 一 种 处 理 其 他 对 象 的 集合 的 简便 方法 。 
因为 集合 是 隐 仿 的， 所 以 可 以 避免 显 式 初始 化 代码 。 

一 个 例子 是 隐 含 的 随机 数 生 成 对 象 , 它 是 rangom 模块 的 一 部 分 。 在 执行 random.rangdom() 时 ， 
我 们 实际 上 使 用 了 random.Rangdom 类 的 一 个 实例 ， 该 实例 是 random 模块 的 一 个 隐 含 部 分 。 
其 他 例子 如 下 。 
口 可 用 数字 类 型 的 集合 。 默 认 情 况 下 ， 可 用 的 数字 类 型 集合 只 有 int 、float 和 complex。 但 是 ， 
我 们 可 以 添加 更 多 的 数字 类 型 ， 并 与 现 有 类 型 无 颖 配合 。 这 涉及 可 用 数字 类 型 的 全 局 注册 表 。 
口 可 用 的 数据 编码 /解码 方法 的 集合 。codecs 模块 列 出 了 可 用 的 编码 器 和 解码 器 。 这 也 涉及 一 
个 隐 式 注册 表 。 可 以 把 编码 和 解码 方案 添加 到 这 个 注册 表 中 。 
口 webbrowser 模块 具有 已 知 浏览 器 的 注册 表 。 在 大 多 数 情况 下 ， 操 作 系 统 的 默认 浏览 器 是 月 
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户 首选 的 和 正确 使 用 的 浏览 器 ， 但 应 用 程序 可 能 启动 用 户 首选 浏览 器 之 外 的 浏览 器 。 我 们 也 
可 以 注册 一 个 对 应 用 程序 来 说 唯一 的 新 浏览 器 。 
如 何 使 用 这 种 隐 含 的 全 局 对 象 ? 


7.5.1 准备 工作 


一 般 来 说 ， 隐 含 的 对 象 可 能 会 引起 一 些 混淆 。 隐 含 的 对 象 背后 的 思想 是 ， 提 供 一 组 功能 作为 单独 
的 函数 ， 而 不 是 对 象 的 方法 。 然 而 ， 这 样 做 的 好 处 是 允许 独立 模块 共享 一 个 公共 对 象 ， 而 无 须 编写 任 
何在 模块 之 间 明 确 协 调 的 代码 。 

作为 一 个 简单 的 例子 ， 我 们 将 定义 一 个 具有 全 局 单 例 对 象 的 模块 。 第 13 章 将 深入 研究 模块 。 

本 例 中 的 全 局 对 象 是 一 个 计数 器 ， 可 以 用 于 累计 来 自 多 个 独立 模块 或 对 象 的 数据 。 我 们 将 使 用 简 
单 的 函数 为 该 对 象 提供 一 个 接口 。 

本 实例 的 设计 大 纲 如 下 所 示 : 


for row in source: 
count ('input') 
some_processing() 
print (counts () ) 


这 种 设计 意味 着 两 个 函数 将 引用 一 个 全 局 计数 器 。 
口 count () : 递增 计数 器 并 返回 当前 值 。 
口 counts () : 提供 所 有 不 同 的 计数 器 值 。 


7.5.2 ”实战 演练 

















































































































处 理 全 局 状态 信息 的 方法 有 两 种 。 一 种 方法 使 用 模块 全 局 变量 ， 因 为 模块 是 单 例 对 象 。 另 一 种 方 
法 使 用 类 级 ( 静态 ) 变量 ， 因 为 类 定义 是 单 例 对 象 。 我 们 将 展示 这 两 种 方法 。 
1. 模块 全 局 变量 
(1) 创建 一 个 模块 文件 。 该 文件 是 一 个 包含 定义 的 .py 文件 ， 我 们 称 之 为 counterpy。 
(2) 如 有 必要 ， 为 全 局 单 例 对 象 定义 一 个 类 。 在 本 例 中 ， 可 以 使 用 如 下 定义 。 


from collections import Counter 


在 某 些 情况 下 ， 可 能 会 使 用 types .SimpleNamespace。 在 其 他 情况 下 ， 可 能 需要 具有 方法 和 属 
性 的 更 复杂 的 类 。 

(3) 定义 全 局 单 例 对 象 唯一 的 实例 。 

_global_counter = Counter() 

在 实例 名 称 前 使 用 _ 来 降低 其 可 见 性 。 在 技术 上 ， 该 实例 不 是 私有 的 。 但 是 ,许多 Python 工具 和 
实用 程序 将 忽略 它 。 

(4) 定义 所 有 包装 函数 。 


def count (key, increment=1): 
_global_ counter[key] += increment 
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def counts() : 
return _g9lopbal_counter .most_common () 


我 们 定义 了 两 个 使 用 全 局 对 象 _global_counter 的 函数 。 这 两 个 函数 封装 了 计数 器 的 实现 细节 。 
现在 可 以 编写 在 各 种 场合 使 用 count () 函数 的 应 用 程序 ,但 是 ,计数 事件 完全 集中 在 这 个 对 象 中 。 
例如 : 


>>> from ch07_r04 import count, counts 
>>> from ch07_r03 import Dicel 
>>> d = Dicel(1) 
>>> for _ in range(1000): 
if sum(d.roll()) == 7: count('seven') 
。 else: count('other') 
>>> print (counts()) 
[('other', 833), ('seven', 167)] 


我 们 从 核心 模块 导入 了 count () 函数 和 counts () 函数 ， 还 导入 了 Dicel 对 象 作 为 一 个 方便 的 
对 象 ， 可 以 使 用 它 来 创建 一 系列 事件 。 当 创建 Dicel 的 实例 时 ， 提 供 一 个 初始 化 来 强制 使 用 特定 的 
随机 种 子 。 这 样 就 会 生成 可 重复 的 结 

然后 可 以 使 用 对 象 a 创建 随机 事件 。 对 于 该 示例 , 我 们 将 事件 分 为 两 个 简单 的 桶 , 标记 为 seven 
和 other。count () 函数 使 用 了 一 个 隐 含 的 全 局 对 象 。 

当 模拟 完成 后 ， 可 以 使 用 counts () 函数 转 储 结果 。 这 将 访问 模块 中 定义 的 全 局 对 象 。 

这 种 方法 的 好 处 在 于 多 个 模块 可 以 共享 cn07_r04 模块 中 的 全 局 对 象 。 所 有 这 一 切 只 需 一 个 
import 语句 ， 不 需要 进一步 协调 或 间接 开销 。 

2. 类 级 静态 变量 

(1) 定义 一 个 类 , 并 在 __ init_ ”方法 之 外 提供 一 个 变量 。 该 变量 是 类 的 一 部 分 ,但 不 是 每 个 实例 
的 一 部 分 。 它 由 类 的 所 有 实例 共享 。 

from collections import Counter 


class EventCounter: 
_Counts = Counter() 


我 们 在 类 级 变量 名 称 前 使 用 了 一 个 _， 以 降低 其 公开 性 。 这 表明 该 属性 是 可 能 更 改 的 实现 细 广 。 
已 不 是 类 的 可 见 接口 的 一 部 分 。 
(2) 添加 通过 该 变量 更 新 和 提取 数据 的 方法 。 
def count (self, key, increment=1): 
EventCounter._counts[key] += increment 


def counts (self): 
return EventCounter._counts.most_common () 


本 例 没 有 使 用 self 来 说 明 变 量 赋值 和 实例 变量 。 在 赋值 语句 的 右 侧 使 用 self .name 时 ， 该 名 
称 可 以 由 对 象 、 类 或 任何 超 类 来 解析 。 这 是 搜索 类 的 一 般 规 则 。 
在 赋值 语句 的 左 侧 使 用 self .name 时 ， 将 创建 一 个 实例 变量 。 必 须 使 用 class .name 确保 更 新 
类 级 变量 ， 而 不 是 创建 一 个 实例 变量 。 

各 种 应 用 程序 组 件 都 可 以 创建 对 象 ， 但 对 象 都 共享 一 个 类 级 值 。 


>>> from ch07_r04 import EventCounter 
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>>> cl1 
SL 
> > 
>>> C2 
33% G3 
>>> C3 
[('inpu 


在 本 例 中 ,我 们 创建 了 三 个 对 象 ，c1、 
类 中 定义 的 公共 变量 
的 类 或 单独 的 函数 的 一 部 分 ， 但 仍然 


.Count ( 


.Count ( 


= EventCounter () 
'input') 
= EventCounter () 
“inputr) 
= EventCounter () 


.Counts() 


t', 2)] 














7.5.3 ”工作 原理 


Python 的 导入 机 制 使 用 sys .modules 映射 跟踪 已 加 载 的 模块 。 如 细 
不 会 再 次 加 载 。 这 意味 着 在 模块 中 定义 的 任何 变量 将 
共享 全 局 单 例 变量 的 方法 有 两 种 。 

口 显 式 使 用 模块 名 称 。 
共享 它 。 这 种 方法 有 效 ， 























部 分 的 情况 下 实现 更 改 。 


这 些 函 数 提供 














实现 细 方 。 上 5 


由 于 我 们 通常 


可 以 简单 地 在 模块 
但 暴露 了 一 个 实现 细节 。 
口 使 用 包装 函数 ， 如 本 实例 所 示 。 这 种 方法 需要 更 多 的 代码 ， 但 是 可 以 在 不 破坏 应 用 程序 其 他 


了 一 种 识别 全 局 变量 相关 功能 
只 要 包装 函数 具有 相同 的 语义 ， 























为 一 个 类 只 提供 
例 对 象 。 如 果 错 误 地 复制 了 类 定义 ， 并 将 其 粘贴 到 一 个 应 














共享 一 个 共同 的 全 局 状态 。 























各 是 一 个 单 例 : 只 有 一 个 实例 。 





























就 可 以 自由 地 改变 实现 。 


2 和 Ce 由 于 三 个 对 象 共 享 同一 个 在 
， 因 此 每 个 对 象 都 可 以 增加 该 共享 变量 的 值 。 





EventCounter 


这 些 对 象 可 以 是 单独 的 模块 、 单 独 


模块 在 该 映射 中 ， 那 么 它 将 


个 counter 实例 ,并 通过 counter. counter 





,同时 封装 实现 细节 的 方法 。 这 让 我 们 自由 考虑 更 改 


个 定义 ,因此 Python 导入 机 制 往 往 会 保证 类 定义 是 一 个 正确 的 单 


























将 不 会 在 这 些 类 定义 之 间 共 享 一 个 全 局 对 象 。 这 是 一 个 很 容易 避免 的 错误 。 




















用 程序 使 用 的 两 个 或 更 多 模块 











1， 那 么 我 们 





如 何在 这 两 种 机 制 之 间 选 择 ? 选择 基于 让 多 个 类 共享 全 局 状态 而 造成 的 混淆 程度 。 如 前 例 所 示 ， 
三 个 变量 共享 一 个 共同 的 Counter 对 象 。 隐 含 共享 的 全 局 状态 可 能 会 令 人 困惑 。 


7.5.4 补充 知识 














当然 ， 





共享 的 全 局 状态 与 画 
态 变 化 封装 起 来 。 当 拥有 共享 的 全 局 状态 时 ， 
口 使 用 包装 函数 隐 含 共享 对 象 ; 

口 使 用 类 级 变量 隐藏 对 象 被 共享 的 事实 。 
另 一 种 选择 是 显 式 地 创建 一 个 全 局 对 象 ， 并 以 更 明显 的 方式 使 其 成 为 应 


























就 已 经 偏离 了 该 目标 : 











ij 向 对 象 编程 思想 背道而驰 。 面 向 对 象 编程 的 一 个 目标 是 将 各 个 对 象 的 所 有 状 











用 程序 的 一 部 分 。 








这 可 能 意味 着 将 对 象 作为 初始 化 参数 提供 给 整个 应 用 程序 中 的 对 象 。 这 在 复杂 的 应 用 程序 中 会 是 相当 





大 的 负担 。 





拥有 一 些 共享 的 全 
志 记 录 和 安全 性 等 普遍 必 








局 对 象 更 具 吸 引力 ， 
E 功 能 时 ， 可 能 





因为 应 用 程序 将 3 
会 有 所 帮助 。 





变 得 更 简单 。 当 这 些 对 象 用 于 诸如 审计 、 


212 第 7 章 高 级 类 设计 











这 是 一 种 容易 被 滥用 的 技术 。 依 赖 于 太 多 全 局 对 象 的 设计 会 令 人 感到 困惑 ， 而 且 还 会 隐藏 一 些微 
妙 的 bpug， 因 为 对 象 在 类 中 的 封装 可 能 难以 辨别 。 此 外 ， 由 于 对 象 之 间 的 隐 含 关系 ， 还 可 能 难以 编写 
单元 测试 用 例 。 


7.6 使 用 更 复杂 的 结构 一 一 列表 映射 


第 4 章 介绍 了 Python 提供 的 基本 数据 结构 ， 其 实例 分 别 讨论 了 各 种 数据 结构 。 

本 节 将 讨论 一 种 常见 的 组 合 数据 结构 一 一 从 键 到 列表 的 映射 。 该 结构 用 于 累积 由 给 定 键 标识 的 对 
象 的 详细 信息 。 本 闻 实 例 将 一 个 包含 详细 信息 的 扁平 ( flat ) 列表 转换 为 一 种 复杂 结构 ,该 结构 的 其 中 
一 列 包 含 从 其 他 列 获取 的 值 。 


7.6.1 准备 工作 


我 们 将 使 用 一 个 虚构 的 Web 日 志 , 该 日 志 已 经 由 原始 Web 格式 转换 为 CSV 格式 。 这 种 转换 通常 
用 选择 各 种 句法 组 的 正则 表达 式 完 成 。 解 析 过 程 的 更 多 相关 信息 ， 请 参阅 1.7 节 。 
原始 数据 如 下 所 示 : 
[2016-04-24 11:05:01,462] INFO in modulel: Sample Message One 
[2016-04-24 11:06:02,624] DEBUG in module2: Debugging 
[2016-04-24 11:07:03,246] WARNING in modulel: Something might have gone Wrong 
文件 中 的 每 行 都 有 一 个 时 间 戳 、 一 个 严重 性 级 别 、 一 个 模块 名 称 和 一 些 文本 。 经 过 解析 ， 数 据 实 
际 上 是 一 个 事件 的 扁平 列表 ， 如 下 所 示 : 


>>> data = [ 
('2016-04-24 11:05:01,462', 'INFO', 'modulel', 'Sample Message One'), 
('2016-04-24 11:06:02,624', 'DEBUG', 'module2', 'Debugging'), 
('2016-04-24 11:07:03,246', 'WARNING', 'modulel', 'Something might have gone 
wrong') 
] 


我 们 想 遍 历 整个 日 志 , 创建 按 模 块 组 织 所 有 消息 的 列表 ， 而 不 是 按时 间 顺 序 。 这 种 重组 可 以 让 分 
析 变 得 更 简单 。 


7.6.2 ”实战 演练 


(1) 从 collections 导 人 defaultdict。 

































































































































































from collections import defaultdict 


(2) 使 用 1ist 函数 作为 defaultaqaict 的 默认 值 。 

module_details = defaultdict (list) 

(3) 遍历 数据 ， 追 加 与 每 个 键 相 关联 的 列表 。defaultdict 对 象 将 使 用 1ist () 函数 为 每 个 新 键 
构建 一 个 空 列表 。 


for row in data: 
module_details[row[2]].append (row) 


























7.6 使 用 更 复杂 的 结构 
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结果 是 一 个 字典 ， 该 字典 将 模块 名 称 映射 到 包含 该 模块 名 称 的 所 有 日 志 行 的 列表 。 数 据 如 下 所 示 : 
{ 


'modulel': [ 
('2016-04-24 11:05:01,462', 'INFO', 'modulel', 'Sample Message One'), 
('2016-04-24 11:07:03,246', 'WARNING', 'modulel', 'Something might have gone 
wrong') 
村 
'module2': [ 
('2016-04-24 11:06:02,624', 'DEBUG', 'module2', 'Debugging ' ) 


] 
} 


该 映射 的 键 是 模块 名 称 ， 映射 的 值 是 包含 该 模块 名 称 的 行 的 列表 。 现 在 可 以 将 分 析 集 中 在 一 个 特 
定 的 模块 上 。 


7.6.3 工作 原理 


当 找 不 到 键 时 ， 映 射 有 两 种 选择 。 
口 当 键 缺失 时 ， 内 置 的 aict 类 抛 出 异常 。 
口 defaultdict 类 在 键 缺 失 时 执行 创建 默认 值 的 函数 ,在 许多 情况 下 ,该 函数 为 int 或 float， 
用 于 创建 一 个 默认 数值 。 在 本 例 中 ， 该 函数 为 1ist ， 它 创建 一 个 空 列表 。 
我 们 也 可 以 使 用 set 函数 为 缺失 的 键 创建 一 个 空 集 ( set ) 对 象 。 这 将 适用 于 从 键 到 共享 该 键 的 
对 象 集 的 映射 。 




















7.6.4 补充 知识 


在 人 研究 Python 3.5 的 类 型 推断 功能 时 ， 需 要 一 种 描述 这 种 结构 的 方法 : 
from typing import * 
def summarize(data) -> Mapping[str, List]: 

the body of the function. 


上 例 使 用 Mapping [str，List] 表 明 结 果 是 从 字符 串 键 到 字符 串 列表 的 映射 。 
还 可 以 构建 一 个 作为 内 置 aict 类 的 扩展 的 版 本 : 


class ModuleEvents (dict): 
def add_event (self, event): 
if event [2] not in self: 
self[event[2]] = list() 
selflevent [2]] .appengd (row) 












































我 们 定义 了 该 类 特有 的 方法 aaa_event () 。 如 果 键 ( event [2] 中 的 模块 名 称 ) 不 在 字典 中 ， 则 
将 添加 空 列表 。 在 if 语句 之 后 ， 可 以 添加 一 个 后 置 条 件 来 断言 键 在 字典 中 。 
使 用 该 类 的 示例 如 下 所 示 : 


module_details = ModuleEvents () 
for row in data: 
module_details.add_event (row) 
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所 得 结构 与 aefaultaict 非常 相似 。 


7.6.5 延伸 阅读 


口 4.9 节 讨 论 了 有 关上 映射 用 法 的 基础 知识 。 
口 4.15 节 讨 论 了 使 用 默认 值 的 其 他 情况 。 
口 6.6 节 讨论 了 使 用 aefaultaict 类 的 其 他 例子 。 


7.7 创建 具有 可 排序 对 象 的 类 
























































在 模拟 纸牌 游戏 时 ， 通 常 必须 能 够 按照 定义 的 顺序 对 cara 对 象 排序 。 当 纸牌 形成 一 种 序列 时 ， 
称 之 为 顺 子 ， 这 是 在 游戏 中 得 分 的 重要 手段 。 这 种 规则 也 适用 于 扑克 ( Poker )、Cribbage、Pinochle 








等 游戏 。 








前 面 大 多 数 的 类 定义 没有 包含 给 对 象 排序 所 必需 的 功能 。 许 多 实例 根据 __hashn__() 计 算 的 内 部 


散 列 值 将 对 象 保存 在 映射 或 集中 。 

为 了 将 元 素 保存 在 一 个 有 序 集合 中 ， 需 要 实现 <、>、<=、>= 
于 每 个 对 象 的 属性 值 。 

如 何 创建 可 比较 的 对 象 ? 


7.7.1 准备 工作 




















、== 和 != 的 比较 方法 。 这 些 比较 基 























Pinochle 游戏 通常 使 用 一 副 48 张 的 纸牌 。 这 些 纸牌 有 6 种 牌 面 大 小 








9、10、Jack、 Queen、 














King 和 Ace， 还 有 标准 的 4 种 花色 。 这 24 张 牌 中 的 每 一 张 都 在 这 副 牌 中 出 现 两 次 。 我 们 必须 谨慎 地 
































7.3 节 使 用 两 个 类 来 定义 纸牌 。cara 类 的 层次 结构 定义 了 每 引 
为 每 张 纸牌 提供 了 游戏 特定 的 功能 。 





























使 用 诸如 字典 或 集 等 数据 结构 ， 因 为 每 张 纸牌 在 Pinochie 中 不 是 唯一 的 ， 可 以 重复 。 





发 纸牌 的 基本 功能 。 第 二 组 mixin 类 


我 们 需要 为 这 些 纸牌 添加 功能 来 创建 可 排序 的 对 象 。 为 了 支持 7.8 节 ， 我 们 将 研究 Pinochle 游戏 











所 使 用 的 纸牌 。 
该 设计 的 前 两 个 要 素 如 下 : 


from ch07_r02 import AceCard, Card, FaceCard, SUITS 
class PinochlePoints : 
人 0 0] 
def polints(self) : 
return self. points[self.rank] 




















我 们 导入 了 现 有 的 cara 层次 结构 ， 还 定义 了 一 个 用 于 计算 在 游戏 中 使 用 的 每 一 张 牌 的 点 数 的 规 






































则 ， 即 PinochlePoints 类 。 该 类 具有 一 个 从 每 张 纸牌 的 牌 面 大 小 到 可 能 令 人 困惑 的 点 数 的 映射 。 
10 为 10 点 ，Ace 为 11 点 ,但 King、Jack 和 Queen 分 别 为 4 点 、3 点 和 2 点 。 这 可 能 会 让 新 玩家 


感到 困惑 。 
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因为 在 顺 子 规则 中 Ace 的 牌 面 大 小 大 于 King， 所 以 设置 Ace 的 牌 面 大 小 为 14。 这 样 就 稍微 简化 
了 处 理 过 程 。 

为 了 使 用 有 序 的 纸牌 集合 ， 需 要 向 纸牌 添加 另 一 个 功能 。 我 们 需要 定义 比较 操作 。 用 于 对 象 比较 
的 特殊 方法 有 6 种 。 

















7.7.2 ”实战 演练 
(1) 本 实例 将 使 用 mixin 设计 方案 。 因 此 ， 需 创建 一 个 新 类 来 保存 比较 功能 。 


class SortedCard: 


这 个 类 和 PinochlePoints 类 将 加 入 card 类 的 层次 结构 ， 用 于 创建 最 终 的 复合 类 定义 。 


























ax, | 

(2) 定义 6 种 比较 方法 。 
def __]l]t__(self, other) 

return (self.rank, self.suit) < (other.rank, other.suit) 
de le__(sel other) 

return (self.rank, self.suit) <= (other.rank, other.suit) 
def _ gt__(se other) 

return (self.rank, self.suit) > (other.rank, other.suit) 
def ge (se other) 

return (self.rank, self.suit) >= (other.rank, other.suit) 
def _eqa (se other) 

return (self.rank, self.suit) == (other.rank, other.suit) 
def _ ne __(self, other) 

return (self.rank, self.suit) != (other.rank, other.suit) 
































我 们 写 出 了 所 有 的 6 种 比较 。 首 先 将 cara 的 相关 属性 转换 为 元 组 ， 然 后 依赖 Python 内 置 的 元 组 
比较 功能 来 处 理 细节 。 
(3) 编写 复合 类 定义 。 这 些 类 由 一 个 基本 类 和 两 个 mixin 类 构建 ， 用 于 提供 附加 的 功能 。 
class PinochleAce(AceCard, SortedCard, PinochlePoints): 
pass 



































class PinochleFace(FaceCard, SortedCard, PinochlePoints): 
pass 


class PinochleNumber (Card, SortedCard, PinochlePoints): 
pass 


最 后 一 个 类 包含 的 元 素 带 有 3 个 单独 且 基 本 独立 的 功能 集 : 基本 card 功能 、mixin 比较 功能 以 及 
mixin Pinochle 的 特定 功能 。 
(4) 创建 一 个 函数 ， 该 函数 将 从 前 面 定义 的 类 创建 单个 纸牌 对 象 。 
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def make_card(rank, suit): 
if rank in (9, 10): 
return PinochleNumber (rank, suit) 
elif. ean Ln (LT LT2y L139): 
return PinochleFace(rank, suit) 
else: 
return PinochleAce(rank, suit) 


尽管 点 数 规则 非常 复杂 ， 但 是 复杂 度 却 隐藏 在 PinochlePoints 类 中 。 构 建 复合 类 作为 cara 
































类 和 PinochlePoints 类 的 基础 子 类 将 得 到 正确 的 纸牌 模型 ， 而 且 没 有 太 多 明显 的 复杂 性 。 
现在 可 以 制作 响应 比较 运算 符 的 纸牌 了 : 


>>> from ch07_r06a import make card 









































>>> C1 = make card(9, '9') 
>>> c2 = make card(10, '9') 
>>> cl < c2 

True 

>>> cl == cl1 

True 

>>> cl == c2 

False 

>>> cl > c2 

False 


建立 一 副 48 张 纸 牌 的 函数 如 下 所 示 : 


SUITS = '\u2660\u2661\u2662\u2663' 
Spades, Hearts, Diamonds, Clubs = SUITS 
def make_deck (): 
return [make_ card(r, s) for _ in range(2) 
for r in range(9, 15) 
for s in SUITS] 





SUITS 的 值 为 4 个 Unicode 字符 。 我 们 也 可 以 分 别 设置 每 个 花色 字符 串 ， 但 这 种 方法 似乎 稍微 简 

















单一 些 。make_deck () 函数 内 的 生成 器 表达 式 构建 了 每 张 纸牌 的 两 个 副本 。 这 些 纸牌 只 有 6 种 牌 本 





小 和 4 种 花色 。 


7.7.3 工作 原理 














[大 


Python 使 用 特殊 方法 处 理 大 量 对 象 。Python 语言 中 几乎 所 有 可 见 的 行为 都 是 源 于 某 个 特殊 的 方法 





名 称 。 本 实例 利用 了 6 种 比较 运算 符 。 
例如 有 如 下 代码 : 
(oe 
上 述 代 码 的 等 价 形式 如 下 : 
cl. le _ (c2) 
这 种 转换 适用 于 所 有 表达 式 运 算 符 。 
仔细 研究 “Python 语言 参考 ”中 的 3.3 节 之 后 ， 可 以 把 特殊 方法 分 为 几 个 组 : 
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口 基本 定制 ; 

口 自 定义 属性 访问 ; 

口 自 定 义 类 创建 ; 

口 自 定 义 实 例 和 子 类 检查 ; 
口 模拟 可 调用 对 象 ; 

口 模拟 容器 类 型 ; 
口 模拟 数字 类 型 ; 
口 with 语句 上 下 文 管理 髓 。 

在 本 实例 中 ， 我们 只 研究 了 上 述 分 类 中 的 第 一 种 ， 其 他 分 类 遵循 类 似 的 设计 模式 。 
创建 该 类 层次 结构 实例 的 过 程 如 下 所 示 。 第 一 个 例子 将 创建 一 副 48 张 牌 的 Pinochle: 


>>> from ch07_r06a import make deck 
>>> deck = make deck() 

>>> len(deck) 

48 


前 8 张 牌 说 明了 它们 是 从 所 有 有 牌 面 大 小 和 花色 组 合 中 构建 起 来 的 : 


>>> deck[:8] 
[94%, 99, 90, 9 %, 10 4, 10 v9, 10 0, 10 %] 


这 副 牌 的 下 半 部 分 与 上 半 部 分 相同 : 


>>> deck[24:32] 
[94%, 99, 90, 9%, 10 4, 10 9, 10 0, 10 %] 


由 于 deck 变量 是 一 个 简单 的 列表 ， 我们 可 以 对 列表 对 象 进行 洗 牌 并 从 中 选择 12 张 纸牌 。 


>>> import random 

>>> random.seed(4) 

>>> random.shuffle(deck) 

>>> sorted(deck[:12]) 

[9%, 10%, Je, J0, J0, 





































































































Qs, QW, Ka, Ke, KW,Av, Aw] 
上 述 代码 中 重要 的 部 分 是 sorted () 荫 数 的 使 用 。 因 为 我 们 定义 了 适当 的 比较 运算 符 ， 所 以 可 以 
对 cara 实例 进行 排序 ， 并 按 预 期 的 顺序 显示 。 


























7.7.4 补充 知识 


形式 逻辑 表明 , 我 们 只 需要 实现 两 种 比较 。 只 要 有 任意 两 种 比较 , 就 可 以 派生 出 其 他 比较 。 例 如， 
只 执行 小 于 (__1t__() ) 和 等 于 (__eq _() ) 操作 ， 就 可 以 很 容易 地 计算 出 缺失 的 3 种 比较 : 

a<b=a<bv a=b 

d=b=a>bv a=b 

a b=-((a=b) 

显然 ,Python 并 没有 做 高 级 代数 运算 。 我 们 需要 认真 地 做 代数 运算 ， 或 者 如 果 不 确定 逻辑 ,那么 
可 以 把 全 部 的 6 种 比较 都 写 出 来 。 
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假设 每 个 cara 都 与 另 一 个 carad 进行 比较 。 尝 试 如 下 语句 : 


>>> cl = make card(9, '9') 
>>> cl1 == 








我 们 将 得 到 一 人 AttributeError 异常 。 
如 果 需 要 这 种 功能 ， 就 必须 修改 比较 运算 符 来 处 理 两 种 类 型 的 比较 : 
口 card 与 Card 
口 card 与 int 
我 们 通过 使 用 isinstance () 函数 区 分 参数 类 型 来 实现 。 
每 种 比较 方法 都 会 变 成 如 下 形式 : 
def'”.. lt (self;, “other): 
if isinstance(other, Card): 
return (self.rank, self.suit) < (other.rank, other.suit) 


else: 
return self.rank < other 


上 述 代码 使 用 牌 面 大 小 和 花色 来 处 理 carad 与 card 的 比较 情况 。 对 于 其 他 所 有 情况 ， 用 Python 
的 一 般 规则 来 比较 牌 面 大 小 和 其 他 值 。 如 果 由 于 未 知 的 原因 ， 男 一 个 值 是 float ， 那么 self.rank 
将 会 使 用 float () 转换 。 





























由 
出 





















































7.7.5 延伸 阅读 


口 请 参阅 7.8 节 ， 该 节 依 赖 于 对 这 些 纸牌 的 排序 。 


7.8 ”定义 有 序 集合 


在 模拟 纸牌 游戏 时 ， 玩 家 的 手 牌 可 以 建 模 为 一 个 纸牌 的 集 或 一 个 纸牌 的 列表 。 对 于 大 多 数 传统 的 
只 有 一 副 牌 的 游戏 , 集 非 常 有 效 ， 因为 任何 给 定 的 纸牌 只 有 一 个 实例 , 而 且 set 类 可 以 非常 快速 地 确 
认 给 定 纸牌 是 否 在 集中 。 
然而 , 在 对 Pinochle 游戏 建 模 时 , 我 们 过 到 了 一 个 具有 挑战 性 的 问题 。 Pinochie 的 一 副 牌 是 48 张 ， 
包括 两 套 9、10、Jack、Queen、King 和 Ace。 简单 的 集 不 能 很 好 地 建 模 , 我 们 需要 一 个 多 重 集 ( multiset ) 
或 包 (bag )。 这 种 数据 结构 是 允许 有 重复 元 素 的 集 。 
这 些 操作 仍然 限于 成 员 测 试 。 例 如 ， 我 们 可 以 多 次 添加 cara (9,'0') 对 象 ， 也 可 以 多 次 删除 它 。 
创建 多 重 集 的 方法 有 很 多 种 。 
口 可 以 使 用 列表 。 追 加 元 素 的 成 本 几乎 是 固定 的 ， 复杂 度 可 表征 为 0(1)。 搜 索 元 素 可 能 存在 性 
能 不 佳 的 问题 。 成 员 测 试 的 复杂 度 往 往 随 着 集合 的 大 小 变化 ， 复 杂 度 为 O(n)。 
口 可 以 使 用 映射 。 映 射 的 值 是 重复 元 素 出 现 的 次 数 的 整数 计数 。 这 种 方法 只 需要 为 映射 中 的 每 
个 对 象 提供 默认 的 __hash__() 方 法 。 实 现 方 式 有 3 种 。 
晶 定义 dict 的 子 类 。 
昌 使 用 defaultdict 。 请 参阅 7.6 节 ， 该 实例 使 用 defaultdict (1ist) 创 建 每 个 键 的 值 列 
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国 使 用 counter。 这 种 方法 很 简单 。 我 们 已 经 在 很 多 实例 中 讨论 了 counter， 





区 全 


， 列 表 的 len ( ) 值 是 键 出 现 的 次 数 。 实 际 上 ， 这 种 结构 是 一 种 多 重 集 。 





阅 4.15 节 、6.8 节 以 及 7.5 节 。 
口 可 以 使 用 有 序列 表 。 插 入 元 素 并 维护 顺序 的 开销 比 插入 列表 上 略 高 一 些 ， 复 杂 度 为 O(n logzz )。 
但 是 , 搜索 的 开销 比 无 序列 表 要 小 一 些 , 复杂 度 为 O(logn ) 。bisect 模块 提供 了 一 组 用 于 有 
序列 表 的 函数 ， 但 是 需要 具有 一 整套 比较 方法 的 对 象 。 



































如 何 构 到 


7.8.1 





之 间 进 行 一 整套 的 比较 。 


我 人 








BE 有 序 的 对 象 集合 ?如 何 使 用 有 序 集合 来 构建 多 重 集 或 包 ? 


准备 工作 
7.7 节 定义 了 可 排序 的 纸牌 对 象 。 这 对 使 用 bisect 模块 至 关 重 要 。 该 模块 中 的 算法 需要 在 对 象 


] 将 定 




















义 一 个 多 重 集 来 保存 12 张 牌 的 Pinochle 手 牌 。 由 于 重复 的 原 


有 给 定 牌 面 大 小 和 花色。 
为 了 将 一 手 牌 看 作 一 种 集 ， 还 需要 为 hang 对 象 定义 一 些 集合 运算 符 ， 即 定义 集 的 成 员 和 子 集运 


算 符 。 





更 多 示例 请 参 























因 ， 将 有 不 止 一 张 纸牌 


























我 们 希望 Python 代码 等 同 于 以 下 公式 : 








其 中 cc 是 一 张 纸牌 ， 万 = {ci1, cx ca …} 是 一 手 牌 。 


人 全 -及 














我 们 也 希望 代码 相当 于 : 


{QcH 











{J QO} 代表 一 对 特定 的 纸牌 我 们 称 之 为 Pinochle。 瑟 表示 一 手 牌 。 
我 们 需要 两 个 导入 语句 : 


from ch07_r06a import * 
import bisect 


第 一 个 导入 语句 从 7.7 节 中 引入 了 可 排序 的 纸牌 定义 。 欠 














有 序 集 的 各 种 bisect 函数 。 


7.8.2 ”实战 演练 
(1) 定义 一 个 类 ， 添 加 可 以 从 任何 可 迭代 数据 源 中 加 载 集合 的 初始 化 方法 。 


class Hand: 
def _ init__(self, cargd_ iter): 


可 以 使 用 该 方法 从 列表 或 生成 器 表达 式 中 构建 一 个 Hand。 如 果 列 表 不 为 空 





self.cards = list(cargd_ iter) 
self.cards.sort() 








第 二 个 导入 语句 引入 了 用 于 维 











排序 。self .cargds 列表 的 sort () 方 法 将 依赖 于 由 cara 对 象 实现 的 各 种 比较 运算 符 。 


从 技术 上 讲 ， 














我 们 只 关心 作为 Sortedcard 子 类 的 对 象 ， 因 为 比较 方法 定义 在 这 些 对 象 中 。 








护 具 有 重复 项 的 


， 则 需要 对 元 素 进行 





220 第 7 章 高 级 类 设计 








(2) 定义 一 个 方法 ， 向 手 牌 中 添加 纸牌 。 


def add(self, aCard: Card): 
bisect.insort (self.cards, aCard) 


我 们 使 用 bisect 算法 确保 纸牌 正确 地 插入 到 self .cards 列表 中 。 
(3) 定义 一 个 方法 ， 在 手 牌 中 查找 给 定 纸牌 的 位 置 。 


def index(self, aCard: Card): 
i = bisect.bisect_left (self.cards, aCard) 
if i != len(self.cards) andq self.cards[i] == aCard: 
return i 
raise ValueError 


我 们 使 用 bisect 算法 查找 给 定 的 纸牌 。bisect .bisect_left () 的 文档 建议 进行 附加 的 if 测 
试 ， 以 便 正 确 地 处 理 边界 情况 。 
(4) 定义 实现 in 运算 符 的 特殊 方法 。 
def _ contains__(self, aCard: Card): 
tt 
self.index(aCard) 
return True 


except ValueError: 
return False 





















































当 用 Python 编写 card in some_hangd 时 ,执行 它 就 等 价 于 执行 some_hand._ contains_ 
(card)。 我 们 使 用 ingex() 方 法 来 查找 该 纸牌 或 抛 出 异常 。 异常 将 被 转换 为 False 返回 值 。 
(5) 定义 一 个 送 代 器 遍历 手 牌 。 这 是 self .cards 集合 的 一 个 简单 代理 。 
def _ iter_ (self): 
return iter(self.cards) 
当 用 Python 编写 iter (some_hangd) 时 ， 执行 它 就 相当 于 执行 some_hand._ iter _()。 
(6) 定义 两 个 手 牌 实例 之 间 的 子 集 操 作 。 


def __le__(self, other): 
for card in self: 
if card not in other: 
return False 
return True 


Python 没 有 acb 或 acb 符 号 ， 所 以 < 和 <= 临 时 用 于 比较 集 。 当 编写 pinochle <= some_ hand 
语句 查看 手 牌 是 否 包含 特定 的 纸牌 组 合 时 ， 相当 于 执行 了 pinochle. le (some_hand)。 子 集 是 
self 实例 变量 ， 目 标 Hand 是 另 一 个 参数 值 。 

in 操作 符 通 过 __contains__() 方 法 实现 。 上 述 过 程 说 明了 如 何 通 过 特殊 方法 来 实现 简单 的 
Python 语法 。 

可 以 用 如 下 方式 来 使 用 Hana 类 : 


>>> from ch07_r06b import make deck, make card, Hand 
>>> import random 

>>> random.seed(4) 

>>> deck = make deck() 
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7.8. 


这 增 


>>> random.shuffle(deck) 

>>> h = Hand(deck[:12]) 

>>> h.cards 

[9%, 10 %, Je4e，JO0O IO Qa, QR%, Ka, Ka, Kd,AV, A*] 


从 结果 来 看 ， 这 些 纸牌 在 手 牌 中 具有 正确 的 顺序 。 这 是 按照 上 述 方法 创建 手 牌 的 必然 结果 。 
以 下 是 使 用 子 集运 算 符 <= 比 较 特 定 模式 与 整个 手 牌 的 示例 : 


>>> pinochle = Hand([make card(11,'0'), make card(12,'%')]) 
>>> pinochle <= h 
True 


Hand 是 一 个 支持 迭代 的 集合 。 可 以 使 用 生成 器 表达 式 来 引用 整个 Hana 中 的 cara 对 象 : 


>>> sum(c.points() for c in h) 
56 





























3 工作 原理 


Hangd 集合 包装 一 个 内 部 1ist 对 象 并 对 该 对 象 应 用 一 个 重要 约束 。 这 些 元 素 按 照排 序 顺序 保存 。 
加 了 插入 新 元 素 的 开销 ,但 降低 了 搜索 元 素 的 开销 。 
用 于 查找 元 素 位 置 的 核心 算法 是 bisect 模块 的 一 部 分 ， 所 以 避免 了 编写 和 调试 。 算 法 并 不 是 很 









































复杂 ， 但 是 使 用 现 有 代码 似乎 更 高 效 。 


改变 





模块 的 名 称 bisect 源 自 于 将 有 序列 表 一 分 为 二 来 查找 元 素 的 思想 ， 其 实质 在 于 : 


mid = (lo+hi)//2 


if ,XX < linid]l: lt,=Wmiid 
else: lo = mid+1 


上 述 代码 在 列表 a 中 搜索 给 定 值 x，1o 的 值 最 初 为 零 ，hi 的 值 最 初 为 列表 的 大 小 len (a) 。 
首先 ， 找 出 中 间 点 。 如 果 目 标 值 x 小 于 中 间 点 的 值 a [mig] ， 那 么 它 一 定 在 列表 的 前 半 部 分 中 : 
hi 的 值 ， 以 便 只 考虑 前 半 部 分 。 

如 果 目 标 值 x 大 于 或 等 于 中 间 点 的 值 a [mia] ,那么 x 一 定位 于 列表 的 后 半 部 分 : 改变 1o 的 值 ， 






































以 便 只 考虑 后 半 部 分 。 


有 目 


扔 出 





由 于 列表 在 每 次 操作 中 都 被 分 成 了 一 半 , 因此 需要 OUlogzm) 个 步骤 才能 让 1o 和 hi 的 值 在 应 该 具 
标 值 的 位 置 上 收敛 。 

如 果 我 们 有 一 手 12 张 的 牌 , 那么 第 一 次 比较 扔 出 6 张 牌 , 第 二 次 比较 再 扔 出 3 张 牌 , 第 三 次 比较 
了 最 后 3 张 牌 中 的 一 张 ， 第 四 次 比较 将 找到 纸牌 的 位 置 。 

如 果 我 们 使 用 一 个 普通 的 列表 ， 按 照 随 机 的 到 达 顺 序 存 储 纸牌 ， 那 么 找到 一 张 纸牌 将 平均 进行 6 



















































































次 比较 。 最 糟糕 的 情况 是 ， 这 张 牌 是 12 张 纸牌 中 的 最 后 一 张 ， 需 要 检查 所 有 的 12 张 纸牌 。 


7.8 











使 用 bisect 的 比较 次 数 总 是 O(logyn)。 这 是 一 般 情况 也 是 最 坏 的 情况 。 
.4 补充 知识 
collections .abc 模块 定义 了 各 种 集合 的 抽象 基 类 。 如 果 和 希望 Hang 的 行为 更 像 其 他 类 型 的 外 








注 
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合 ， 可 以 利用 这 些 定 义 。 
我 们 可 以 为 这 个 类 定义 添加 大 量 集 合 运算 符 ， 使 其 更 像 内 置 的 Mutableset 抽象 类 定义 。 


和 Co 


口 
口 








__len 


DQ clear()、 














utableSet 是 Set 的 一 个 扩展 。set 类 是 由 3 个 类 定义 构建 的 复合 对 象 : sized、Iterable 





2 Tt.() 


_ () 


DQ add() 
DQ discard() 
我 们 还 需要 提供 一 些 其 他 的 方法 ， 这 些 方法 是 可 变 集合 的 一 部 分 。 
pop () : 这 两 个 方法 将 从 集合 
口 remove() : 不 同 于 discard() ， 当 试图 删除 缺失 元 素 时 它 会 引发 异常 。 

为 了 具有 独特 的 类 似 于 集 的 功能 ， 还 需要 一 些 额 外 的 方法 。 我 们 根据 __1e__() 提供 了 一 个 子 集 
的 示例 。 还 需要 提供 以 下 子 集 比较 方法 : 




















是 :=e (9 
D1it  () 
DD_ eq 1() 
DD ne  () 
DD_ gt _() 
D_ ge _() 
D isdisjoint() 


ntainer。 这 意味 着 它 必须 定义 以 下 方法 : 


口 contains_ _() 











删除 元 素 。 


























这 些 方法 通常 不 是 简单 的 单行 定义 。 为 了 实现 核心 的 比较 集 ， 经 常 先 编写 两 个 比较 方法 ， 然 后 使 

















Xzy= (X=y) 
xX<y=(x<y) 人 (x=y) 
xXx>y= -x <y) 
X=y= "<y)= (ry) v=y) 

为 了 进行 集合 操作 ， 需 要 提供 以 下 内 容 。 


口 


口 


口 





口 








大 











用 逻辑 来 基于 这 两 个 比较 方法 构建 其 他 比较 方法 。 
由 于 __eq__() 比较 简单 ， 





此 假设 我 们 已 经 具有 == 和 <= 运 算 符 的 定义 。 其 他 定义 如 下 : 



































and _() 和 _ iand 
集合 的 交集 ， 或 者 am p。 
or _() 和 _ ior _()。 
合 的 并 集 , 或 者 a U b。 
sub _() 和 _isub 
集合 的 差 集 ， 往 往 写 成 a 
xor _() 和 ixor 











() 。 这 两 个 方法 实现 了 Python & 操 作 符 和 g= 赋 值 语句 。 这 相当 于 两 个 








这 两 个 方法 实现 了 Python | 操作 符 和 |= 赋 值 语句 。 这 相当 于 两 个 集 


() 。 这 两 个 方法 实现 了 Python -操作 符 和 -= 赋值 语句 。 这 相当 于 两 个 
站 bo 
() 。 这 两 个 方法 实现 了 Python ^ 操 作 符 和 ^= 赋 值 语句 。 这 相当 于 两 个 
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集合 的 对 称 差 ， 常 写 为 Ap。 
































抽象 类 人 允许 每 个 操作 符 有 两 个 版 本 。 有 以 下 两 种 情况 。 

口 例如 ， 如 果 提 供 了 __iang _()， 那 么 语句 A &= B 将 被 求 值 为 A. iand _(B)。 这 种 实现 
可 能 是 高 效 的 。 

口 如 果 不 提供 ”iang _()， 那 么 语句 A &= B 将 被 求 值 为 A = A. and _(B)。 这 可 能 有 点 








低 效 ， 因 为 我 们 将 创建 一 个 新 的 对 象 。 新 对 象 被 赋予 标签 A， 旧 的 对 象 将 从 内 存 中 删除 。 
对 于 内 置 的 set 类 ， 有 20 多 种 方法 需要 提供 正确 的 替换 。 一 方面 ， 这 需要 很 多 代码 。 另 一 方 男 
Python 允许 以 透明 的 方式 扩展 内 置 的 类 ， 使 用 具有 相同 语义 的 相同 运算 符 。 










































































7.8.5 延伸 阅读 


口 定义 Pinochle 纸牌 的 实例 ， 请 参阅 7.7 节 。 


7.9 从 映射 列表 中 删除 元 素 


从 列表 中 删除 元 素 会 产生 一 个 有 趣 的 后 果 。 有 具体 来 说 ， 当 元 素 1ist [x] 被 删除 时 , 将 会 发 生 以 下 
两 种 情况 之 一 。 
口 元 素 1ist [x+1] 占 据 了 1ist [x] 的 位 置 。 
口 元 素 x+1 == len(list) 占 据 了 1ist[x] 的 位 置 ， 因 为 x 是 列表 中 的 最 后 一 个 索引 。 
除了 删除 元 素 之 外 ， 这些 都 是 副作用 。 因 为 元 素 可 以 在 列表 中 移动 ， 所 以 一 次 删除 多 个 元 素 具 有 
一 定 的 挑战 性 。 
当 列 表 包 含有 具有 特殊 方法 __eq__() 的 定义 的 元 素 时 , 列表 的 remove () 方 法 可 以 删除 每 个 元 素 。 
当 列 表 元 素 没有 简单 的 __eq__() 测 试 时 ， 从 列表 中 删除 多 个 元 素 将 更 具 挑 战 性 。 
如 何 从 列表 中 删除 多 个 元 素 ? 


7.9.1 准备 工作 


本 实例 将 使 用 一 种 字典 -列表 (list-of-dict ) 结构 ， 其 中 用 到 了 一 些 数据 ， 包 括 歌曲 名 称 、 作 者 和 
时 长 ， 如 下 所 示 : 













































































>>> source = [ 
{'title': 'Eruption', 'writer': ['Emerson'], 'time': '2:43'}, 
{'title': 'Stones of Years', 'writer': ['Emerson', 'Lake'], 'time': '3:43'}, 
{'title': 'Iconoclast', 'writer': ['Emerson'], 'time': '1:16'}, 
{'title': 'Mass', 'writer': ['Emerson', 'Lake'], 'time': '3:09'}, 
{'title': 'Manticore', 'writer': ['Emerson'], 'time': '1:49'}, 
{'title': 'Battlefield', 'writer': ['Lake'], 'time': '3:57'}, 
{'title': 'Aquatarkus', 'writer': ['Emerson'], 'time': '3:54'} 


a 
为 了 运行 这 种 数据 结构 ， 还 需要 使 用 pprint 函数 : 


>>> from pprint import pprint 
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使 用 for 语句 可 以 轻松 遍历 列表 。 关 键 问题 


>>> data source.copy() 
>>> for item in data: 
if 'Lake' in item['writer']: 
yi print ("remove", item['title']) 
remove Stones of Years 
remove Mass 
remove Battlefield 



























































题 是 ， 如 何 删除 所 选 


元 素 ? 
























































本 示例 不 能 简单 地 使 用 del itenm 语句 ， 因 为 它 对 源 集合 aata 没有 影响 。 该 语句 只 能 通过 删除 
item 变量 和 关联 对 象 ， 来 删除 原始 列表 中 元 素 的 局 部 变量 副本 。 

想 要 正确 删除 列表 中 的 元 素 ， 就 必须 使 用 列表 中 的 索引 位 置 。 下 面 是 一 个 简单 的 方法 ， 但 是 明显 
不 起 作用 : 

>>> data = Source.copy() 


>>> for index in range(len(data)): 
if 'Lake' in data[index] ['writer']: 
del data[index] 
Deel (most recent call last): 


File "/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/doctest. 


line 1320, in 
compileflags, 


py", __run 

1), test.globs) 

File "<doctest main test .chaptez [5]>"， 
if 'Lake' in data[index] ['writer']: 


IndexError: list index out of range 


不 能 简单 地 根据 列表 的 原始 大 小 来 使 月 














range (len (data) 











索引 值 将 超出 正常 范围 。 
在 删除 包含 简单 相等 测试 的 元 素 时 ， 应 当 使 用 如 下 代码 : 














while 
1i 


> oe a 
st.remove (x 


) 
但 问题 是 ， 我 们 没有 实现 __ ls 
当然 可 以 使 用 一 个 实现 eq _() 的 dict 的 子 类 作为 self[ 
这 种 方法 显然 违反 了 相等 的 语义 ， 因 为 它 只 检查 了 一 个 字段 。 





contains 

















因此 不 能 用 Lake in item['writer' 


'writer' 


line 2, in <module> 


) 。 当 元 素 被 删除 时 ,列表 长 度 将 变 小 ， 


] 识别 元 素 。 


] 中 的 字符 串 参 数值 。 但 是 

















我 们 不 能 扩展 这 些 类 的 内 置 功能 。 该 | 
与 基本 的 while in...remove 循环 相似 ， 


>>> def index(data): 
for i in range(len(data)): 














需要 编写 如 下 代 


if 'Lake' in datal[li]['writer']: 
i return i 
>>> data = Source.copy() 
>>> position = index(data) 


>>> while position: 


del data[position] # 或 者 daata.pop (position) 
position index (data) 


我 们 编写 了 一 个 函数 indqex () ,该 函数 可 以 找 出 
能 够 提供 两 种 信息 : 





目标 值 的 第 























一 个 实例 。 该 函数 的 结 呈 








] 例 特定 于 问题 域 ， 而 不 是 字典 -列表 结构 的 一 般 功能 。 


码 : 




















只 有 一 个 值 ， 
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口 当 返 回 值 不 为 None 时 ， 元 素 存在 于 列表 
口 返回 值 是 列表 中 元 素 的 正确 索引 。 

index() 函数 宛 长 且 不 灵活 。 如 果 还 有 其 他 规则 ， 就 需要 编写 多 个 index () 函数 , 或 者 需要 使 测 
试 更 加 灵活 。 

更 重要 的 是 ， 当 目标 值 在 一 个 具有 n 个 元 素 的 列表 中 出 现 x 次 ， 那么 该 循环 将 会 执行 x 次 。 遍 
历 整 个 列表 的 平均 时 间 复 杂 度 为 O(x x n/2)， 最 坏 的 情况 是 这 些 元 素 都 在 列表 的 末尾 ， 时 间 复 杂 度 为 
O(x x n)o 

我 们 可 以 优化 解决 方案 。 首 选 解决 方案 是 在 2.7 节 的 基础 上 设计 一 个 循环 来 从 列表 结构 中 删除 复 
杂 的 元 素 。 





















































7.9.2 ”实战 演练 
(1) 将 索引 值 初始 化 为 零 。 这 将 建立 一 个 遍历 数据 集合 的 变量 。 


EU 
(2) 终止 条 件 必 须 说 明 列表 中 的 每 个 元 素 都 已 被 检查 过 。 此 外 ， 循 环 体 需 要 删除 与 目标 条 件 匹配 
的 所 有 元 素 。 这 将 导致 一 个 不 变 条 件 ， 即 item[i] 尚 未 检查 。 在 检查 完 该 元 素 之 后 ， 元 素 可 能 会 被 保 
留 ， 那么 就 必须 递增 索引 i 来 重新 设置 尚未 检查 的 不 变 条 件 。 如 果 元 素 被 删除 ,那么 其 他 元 素 将 向 前 
移动 ，item[i] 将 自动 满足 尚未 检查 的 不 变 条 件 。 
if 'Lake' in datal[lil]['writer']: 
del datal[i] # 删除 


else: 
i += 1 # 保留 


删除 元 素 时 ,列表 将 变 短 ,索引 值 i 将 指向 一 个 新 的 未 检查 元 素 。 在 保留 元 素 时 ,索引 值 i 将 前 
进 到 下 一 个 未 检查 的 元 素 。 
(3) 用 终止 条 件 包装 处 理 过 程 的 主体 。 


while i != len(data): 


在 while 语句 结束 时 ，i 的 值 将 表明 所 有 元 素 都 已 经 被 检查 过 。 


>>> i =0 
>>> while i != len(data): 
IE 'Lake' in datal[lil]l['writer']: 
del data[il] 





















































else: 

i Ne 

>>> pprint (data) 

[{'time': '2:43', 'title': 'Eruption', 'writer': ['Emerson']}, 
{'time': '1:16', 'title': 'Iconoclast', 'writer': ['Emerson']}, 
{'time': '1:49', 'title': 'Manticore', 'writer': ['Emerson']}, 
{'time': '3:54', 'title': 'Aquatarkus', 'writer': ['Emerson']}] 


上 述 代码 将 遍历 一 次 数据 ,在 不 抛 出 索引 错误 的 情况 下 删除 所 请 求 的 元 素 ， 或 者 跳 过 应 该 已 被 删 
除 的 元 素 。 
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7.9.3 工作 原理 


我 们 的 目标 是 检查 每 个 元 素 , 并 将 其 删除 或 跳 过 。 上 述 循环 设计 体现 了 Python 删除 列表 元 素 的 工 
作 原 理 。 当 一 个 元 素 被 删除 时 ， 列 表 中 该 元 素 后 面 的 所 有 元 素 都 将 向 前 移动 。 
基于 range () 函数 和 len () 函数 的 简单 处 理 过 程 有 两 个 问题 。 

口 当 元 素 向 前 移动 并 且 下 一 个 值 由 range 对 象 生成 时 ， 元 素 将 被 跳 过 。 

口 删除 元 素 后 ， 索 引 可 能 会 超出 列表 范围 ， 因 为 1en () 只 使 用 了 一 次 ， 获 得 的 是 原始 列表 大 小 ， 
而 不 是 当前 列表 的 大 小 。 

由 于 存在 这 两 个 问题 ， 因 此 循环 体 中 不 变 条 件 的 设计 很 重要 。 这 反映 了 两 种 可 能 的 状态 变化 。 

口 如 果 元 素 被 删除 ， 索 引 不 会 改变 ， 但 列表 本 身 会 改变 。 

口 如 果 元 素 被 保留 ， 索 引 必须 改变 。 

我 们 可 以 认为 循环 遍历 了 一 次 数据 , 具有 O(n) 的 复杂 度 。 这 里 没有 考虑 每 次 删除 的 相对 开销 。 从 
列表 中 删除 索引 为 0 的 元 素 意味 着 剩余 的 每 个 元 素 都 会 向 前 移动 一 个 位 置 。 每 次 删除 的 开销 实际 上 为 
O(n)。 因 此 ， 复 杂 度 更 像 是 O(n x x)， 其 中 从 n 个 元 素 的 列表 中 删除 x 个 元 素 。 
甚至 这 种 算法 也 不 是 从 列表 中 删除 元 素 的 最 快 方法 。 





















































































































































7.9.4 补充 知识 


如 果 我 们 换 一 个 思路 ， 放 弃 删 除 的 想法 ， 可 能 会 更 容易 处 理 。 制 作 元 素 的 浅 副 本 比 从 列表 中 删除 
元 素 要 快 得 多 ， 但 是 将 使 用 更 多 的 存储 空间 。 这 是 常见 的 时 间 与 空间 的 权衡 问题 。 

第 一 种 实现 方法 是 使 用 生成 器 表达 式 ， 如 下 所 示 ; 

>>> data = [item for item in source if not('Lake' in item['writer'])] 

上 述 代码 将 创建 想 要 保留 的 列表 元 素 的 浅 副 本 ,不 想 保 留 的 元 素 将 被 忽略 。 有 关 浅 副本 概念 的 更 
多 信息 ， 请 参阅 4.14 节 。 

第 二 种 实现 方法 是 使 用 高 阶 函 数 ， 如 下 所 示 : 


>>> data = list(filter(lambda item: not('Lake' in item['writer']), source)) 


filter () 函数 有 两 个 参数 : 一 个 lambda 对 象 和 一 组 原始 数据 。lambaa 对 象 是 函数 的 一 种 退化 : 
只 有 参数 和 一 个 表达 式 。 在 本 例 中 ， 表达 式 用 于 决定 需要 保留 的 元 素 。1ambda 对 象 的 值 为 False 的 
元 素 将 被 拒绝 。 

filter () 函数 是 一 个 生成 器 。 这 意味 着 需要 收集 所 有 元 素来 创建 最 终 的 列表 对 象 。for 语句 是 
处 理 生成 器 的 所 有 结果 的 一 种 方法 ，1ist () 和 tuple() 限 数 也 可 以 处 理 来 自生 成 器 的 所 有 元 素 。 

第 三 种 实现 方法 是 编写 自 定 义 的 生成 器 函数 ， 它 体现 了 过 滤器 (filter ) 的 概念 。 这 种 方法 将 比 生 
成 器 或 filter () 函数 使 用 更 多 的 语句 ， 但 是 代码 可 能 更 清晰 易 懂 。 
生成 器 函数 的 定义 如 下 所 示 : 


def writer_rulel(iterable) : 
for item in iterable: 
if 'Lake' in item['writer']: 
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Continue 
yield item 

















我 们 使 用 了 一 个 for 语句 来 检查 源 列 表 中 的 每 个 元 素 。 如 果 元 素 'Lake ' 在 writer 列表 中 ， 则 
将 继续 执行 for 语句 ， 有 效 地 拒绝 该 元 素 。 如 果 ' Lake' 不 在 writer 列表 中 ， 则 将 生成 该 元 素 。 
调用 该 函数 时 ， 将 会 生成 预期 的 列表 。 使 用 writer_rule() 函数 的 过 程 如 下 所 示 : 


>>> from ch07_r07 import writer rule 
>>> data = list(writer rule(source)) 
>>> pprint (data) 


























[{'time': '2:43', 'title': 'Eruption', 'writer': ['Emerson']}, 
{'time': '1:16', 'title': 'Iconoclast', 'writer': ['Emerson']}, 
{'time': '1:49', 'title': 'Manticore', 'writer': ['Emerson']}, 
{'time': '3:54', 'title': 'Aquatarkus', 'writer': ['Emerson']}] 








上 述 过 程 把 需要 保留 的 行 保存 到 一 个 新 的 结构 中 。 由 于 只 是 一 个 浅 副 本 ， 因 此 不 会 浪费 大 量 的 存 
储 空 间 O 


7.9.5 延伸 阅读 


口 本 实例 基于 2.7 蔬 。 
口 本 实例 还 利用 了 另外 两 个 实例 : 4.14 节 和 4.4 节 。 
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轴 数 式 编程 和 反应 式 编程 








本 章 主要 介绍 以 下 实例 。 

口 使 用 yiela 语句 编写 生成 器 函数 
口 使 用 生成 器 表达 式 栈 

口 将 转换 应 用 于 集合 

口 选择 子 集 一 一 三 种 过 滤 方 式 

口 汇总 集合 一 一 如 何 归 约 

口 组 合 映射 和 归 约 转换 

口 实现 there exists 处 理 
口 创建 偏 函 数 

口 使 用 不 可 变数 据 结构 简化 复杂 算法 

口 使 用 yielqa from 语句 编写 递归 生成 器 函数 






























































8.1 引言 


函数 式 编 程 〈functional programming ) 专注 于 编写 执行 数据 转换 的 小 型 、 富 有 表现 力 的 函数 。 相 
比 过 程 语 句 串 或 复杂 、 有 状态 对 象 的 方法 , 组 合 函 数 通常 可 以 创建 更 简洁 、 更 富 表达 性 的 代码 。Python 
支持 三 种 编程 范式 。 

传统 数学 将 许多 事物 定义 为 函数 。 我 们 可 以 组 合 多 个 函数 ， 从 先前 的 数据 转换 中 构建 出 一 个 复杂 






























































的 结果 。 例 如 ,假设 有 两 个 函数 f(x) 和 g (y)， 需 要 将 它们 组 合 起 来 创建 有 用 的 结果 : 
y=f (x) 
z=8(») 
理想 情况 下 ， 可 以 通过 这 两 个 函数 创建 一 个 复合 函数 : 
z=(g°f)(x%) 











使 用 复合 函数 (go。f) 有 助 于 说 明 程 序 的 工作 方式 。 该 函数 允许 我 们 将 许多 琐碎 的 详细 信息 组 合 为 
一 个 更 大 的 知识 块 。 

由 于 程序 设计 经 常 使 用 数据 集合 ， 因 此 经 常 需 要 将 函数 应 用 于 整个 集合 。 这 种 方法 契合 集结 构 式 
( set builder ) 或 集 解析 式 ( set comprehension ) 的 数学 思想 。 
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将 函数 应 用 于 数据 集合 的 常见 模式 有 三 种 。 

口 映射 (mapping ): 将 函数 应 用 于 集合 中 的 所 有 元 素 ，{M (x) :x E C}。 我 们 将 函数 M 应 用 于 较 
大 集合 C 中 的 每 个 元 素 x。 

口 过 滤 (filtering ): 使 用 函数 从 集合 中 选择 元 素 ，{x :c EC fF (x)}。 我 们 使 用 函数 下 确定 是 
通过 还 是 拒绝 来 自 较 大 集合 C 的 元 素 x。 
口 归 约 (reducing ): 汇总 集合 。 各 种 归 约 的 细节 各 异 ， 最 常见 的 一 种 归 约 是 创建 集合 C 中 所 有 
元 素 x 的 总 和 ， 起 














































































































我 们 经 常 结合 这 些 模式 来 创建 更 复杂 的 应 用 程序 。 这 种 方法 的 关键 是 通过 映射 和 过 滤 之 类 的 高 阶 
函数 ， 将 诸如 MG) 和 (x) 的 小 函数 组 合 起 来 。 组 合 操 作 可 能 很 复杂 ， 即 使 各 个 部 件 相 当 简单 。 

反应 式 编程 (reactive programming ) 的 思想 是 在 输入 变 得 可 用 或 输入 发 生变 化 时 , 执行 处 理 规则 。 
这 种 思想 符合 惰性 编程 思想 。 当 我 们 定义 类 定义 的 惰性 特性 时 ， 就 相当 于 创建 了 反应 式 程 序 。 

反应 式 编程 基于 函数 式 编程 ， 因 为 对 于 输入 值 的 改变 ， 可 能 需要 进行 多 个 转换 。 通 常 ， 反 应 式 编 
程 思想 清晰 地 表现 为 用 于 组 合 或 堆 琶 (stack ) 为 响应 变化 的 复合 函数 的 函数 。 有 关 反 应 式 类 设计 的 示 
例 ， 请 参阅 6.8 节 。 


8.2 使 用 yiela 语句 编写 生成 器 函数 


前 面 大 多 数 实例 的 设计 都 适用 于 集合 的 所 有 元 素 。 这 些 实例 使 用 for 语句 遍历 集合 中 的 每 个 元 
素 ， 要 么 将 值 映射 到 新 元 素 ， 要 么 规约 〈reduce ) 集合 得 到 某 种 汇总 值 。 
使 用 集合 生成 结果 的 方式 通常 有 两 种 ， 一 种 是 从 集合 中 生成 单个 结果 ， 男 一 种 是 逐步 生成 结果 ， 
而 不 是 第 合 果 ， | 
当 集 合 无 法 整体 放 入 内 存 中 时 , 第 二 种 方法 是 非常 有 用 的 。 例 如 , 在 分 析 巨 大 的 Web 日 志文 件 时 ， 
最 好 将 文件 分 解 为 小 块 进行 处 理 ， 而 不 是 创建 存放 在 内 存 中 的 集合 。 
如 何 从 处 理 函 数 中 分 离 出 集合 结构 ? 当 每 个 单独 的 元 素 可 用 时 ， 是 否 可 以 立即 从 处 理 过 程 
成 结果 ? 


8.2.1 准备 工作 


本 实例 的 背景 信息 是 一 些 包含 日 期 时 间 字 符 串 值 的 Web 日 志 数据 。 我 们 需要 解析 这 些 日 志 数据 ， 
来 创建 正确 的 datetime 对 象 ,为 了 将 注意 力 集中 在 本 实例 , 本 实例 使 用 了 一 个 由 Flask 生成 的 简化 日 志 。 
日 志 条 目的 开头 是 文本 行 ， 如 下 所 示 : 


[2016-05-08 11:08:18,651] INFO in ch09_r09: Sample Message One 
[2016-05-08 11:08:18,651] DEBUG :in ch09 r09: Debugging 
[2016-05-08 11:08:18,652] WARNING in ch09 r09: Something might have gone wrong 


7.6 节 已 经 讨论 了 一 些 处 理 这 种 日 志 的 示例 。 使 用 1.7 节 中 的 正则 表达 式 可 以 将 日 志 分 解 为 行 的 引 
全 如 下 所 示 : 
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>>> data = [ 
('2016-04-24 11:05:01,462', 'INFO', 'modulel', 'Sample Message One'), 
('2016-04-24 11:06:02,624', 'DEBUG', 'module2', 'Debugging'), 
('2016-04-24 11:07:03,246', 'WARNING', 'modulel', 'Something might have 
gone wrong') 


ya ] 

我 们 不 能 使 用 常用 的 字符 串 解 析 将 复杂 的 日 期 时 间 戳 转换 成 更 有 用 的 数据 结构 。 但 是 可 以 编写 一 
个 生成 器 函数 ， 该 生成 器 函数 可 以 处 理 日 志 的 每 一 行 ， 并 生成 一 个 更 有 用 的 中 间 数 据 结构 。 
生成 器 函数 就 是 使 用 yiela 语句 的 函数 。 当 函数 包含 yield 语句 时 ， 它 将 逐步 构建 结果 ， 以 客 
户 端 可 以 使 用 的 方式 生成 每 个 值 。 客 户 端 可 能 是 一 个 for 语句 ， 也 可 能 是 接收 值 序列 的 另 一 个 函数 。 


8.2.2 ”实战 演练 
(1) 导入 datet ime 模块 。 


import datetime 

(2) 定义 处 理 源 集 合 的 函数 。 

def parse_ date_ iter(source): 

为 函数 名 添加 后 级 _iter， 说 明 该 函数 将 是 一 个 可 迭代 的 对 象 ， 而 不 是 简单 的 集合 。 
(3) 包含 一 个 for 语句 ， 访 问 源 集合 中 的 每 个 元 素 。 

for item in source: 

(4) for 语句 的 循环 体 可 以 将 元 素 映 射 到 一 个 新 元 素 上 。 


date = datetime.datetime.strptimel( 













































































item[0], 
"SY-%Sm-%d %H: SM:%$S,%f") 
new_item = (date,)+item[1:] 





在 本 例 中 , 我 们 将 单个 字段 从 字符 串 映 射 到 了 datetime 对 象 。 变量 aate 由 item[0] 中 的 字符 
串 构 建 。 然 后 将 日 志 消息 三 元 组 映射 到 一 个 新 的 元 组 ， 将 日 期 字符 串 替 换 为 正确 的 datetime 对 象 。 
由 于 元 素 的 值 是 一 个 元 组 ， 因 此 我 们 创建 了 一 个 单 例 元 组 (daate, ) ,然后 将 其 与 item[1:] 元 组 拼接 
起 来 。 
(5) 使 用 yiela 语句 生成 新 元 素 。 


yield new_item 


正确 缩 进 后 ， 代 码 的 整体 结构 如 下 所 示 : 


import datetime 
def parse date_ iter(source): 
for item in source: 
date = datetime.datetime.strptimel( 
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item[0], 
"SY-%Sm-%d %H:%SM:%$S,%f") 
new_item = (date,)+item[1:] 


yield new_item 
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parse_date_iter() 困 数 需要 一 个 可 人 迭代 的 输入 对 象 。 集 合 是 可 迭代 的 对 象 。 不 过 更 重要 的 是 ， 
其 他 生成 器 也 是 可 迭代 的 。 我 们 可 以 利用 这 一 点 来 构建 生成 器 栈 ， 以 处 理 来 自 其 他 生成 器 的 数据 。 
这 个 函数 并 不 直接 创建 集合 ， 而 是 生成 每 个 元 素 ， 以 便 单 独处 理 元 素 。 这 样 数 据 处 理 过 程 就 可 以 
分 块 处 理 源 集合 ， 从 而 便捷 地 处 理 大 量 数据 。 在 某 些 实例 中 ， 数 据 存放 在 内 存 中 的 集合 中 。 随 后 的 实 
例 将 处 理 来 自 外 部 文件 的 数据 ， 而 这 种 技术 最 有 利于 处 理 外 部 文件 。 
使 用 该 函数 的 示例 如 下 : 
>>> from pprint import pprint 
>>> from ch08_r01 import parse date iter 
>>> for item in parse date iter(data): 
. pprint (item) 
(datetime.datetime(2016, 4, 24, 11, 5, 1, 462000), 
'INFO', 
'modulel', 
'Sample Message One') 
(datetime.datetime(2016, 4, 24, 11, 6, 2, 624000), 
'DEBUG', 
'module2', 
'Debugging') 
(datetime.datetime(2016, 4, 24, 11, 7, 3, 246000), 
'WARNING', 
'modulel', 
'Something might have gone wrong') 
上 述 示例 使 用 for 语句 迭代 parse_gdate_iter() 函数 的 结果 ， 一 次 一 个 元 素 。 最 后 使 用 
pprint () 函数 显示 每 个 元 素 。 
我 们 也 可 以 收集 这 些 元 素 生 成 一 个 列表 ， 如 下 所 示 : 


>>> details = list(parse date iter(data)) 


在 本 例 中 ，1ist () 函数 使 用 了 由 parse_gdate_iter () 函数 产生 的 所 有 元 素 。 使 用 类 似 1ist () 
的 函数 或 for 语句 来 使 用 生成 右 的 所 有 元 素 是 极其 重要 的 。 生 成 髓 是 一 种 相对 被 动 的 结构 ,如果 不 主 
动 请 求 数据 ， 它 不 会 执行 任何 操作 。 

如 果 不 主动 请 求 这 些 数据 ， 那 么 将 会 看 到 如 下 结 


>>> parse date iter(data) 
<generator object parse date iter at 0x10167ddb0> 


parse_dqate_iter() 因数 的 值 是 一 个 生成 器 。 生 成 器 不 是 由 元 素 组 成 的 集合 ， 而 是 按 需 产生 元 
素 的 函数 。 
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8.2.3 工作 原理 


ij 写生 成 器 函数 可 以 改变 我 们 理解 算法 的 方式 ， 其 常见 模式 有 两 种 : 映射 和 归 约 。 映 射 将 每 个 元 
素 转换 为 新 元 素 ， 或 者 计算 一 个 派生 值 。 归 约 从 源 集合 中 累计 一 个 汇总 ， 例 如 和 、 平 均值 、 方 差 或 散 
列 值 。 这 些 模式 可 以 与 处 理 集合 的 整个 循环 分 离 ， 分 解 为 逐 项 转换 处 理 或 过 滤器 。 

Python 有 一 种 叫 作 迭代 器 (iterator ) 的 复杂 结构 ， 它 处 于 生成 器 和 集合 的 中 心 位 置 。 和 迭代 器 从 集 
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合 中 提供 每 个 值 ， 同 时 执行 维护 处 理 状态 所 需 的 内 部 短 记 (bookkeeping )。 生 成 器 函数 的 行为 类 似 于 
迭代 器 ， 它 提供 了 一 系列 值 并 维护 自身 的 内 部 状态 。 
思考 以 下 常见 的 Python 代码 : 


for i in some_collection: 
process (i) 


上 述 代码 背后 的 工作 原理 可 以 用 以 下 代码 表示 : 

the_iterator = iter(some_collection) 

es 

while True: 
i = next (the_iterator) 
process (i) 
except StopIteration: 
pass 

Python 对 整个 集合 执行 iter () 限 数 ， 以 创建 该 集合 的 迭代 器 对 象 。 壕 代 器 与 集合 绑 定 ， 并 维护 
一 些 内 部 状态 信息 。 ee next () 方法 获取 每 个 值 。 当 友 代 完成 时 ， 迭 代 器 抛 出 
StopIteration 异常 。 

Python 的 每 个 集合 都 可 以 生成 一 个 迭代 器 。 由 序列 (Sequence ) 或 集 ( set ) 生成 的 迭代 器 将 访 
问 集合 中 的 每 个 元 素 。 由 映射 (Mapping ) 生成 的 迭代 器 将 访问 映射 的 每 个 键 。 我 们 可 以 使 用 映射 的 
values () 方 法 迭代 映射 的 值 ， 还 可 以 使 用 映射 的 items () 方 法 访问 (key，value) 二 元 组 序列 。 文 
件 (file ) 的 迭代 器 将 访问 文件 中 的 每 一 行 。 

迭代 器 的 概念 也 可 应 用 于 函数 。 使 用 yiela 语句 的 函数 叫 作 生成 器 函数 ( generator function )。 它 
符合 迭代 器 的 模板 。 为 此 ， 生 成 器 返回 自身 来 响应 iter () 函数 ， 产 生 下 一 个 值 来 响应 next () 函数 。 

将 1ist () 应 用 于 集合 或 生成 器 函数 时 ，foz 语句 使 用 的 基本 机 制 将 获取 单个 值 。1ist () 使 月 
iter () 函数 和 next () 艺 数 获取 元 素 ， 然 后 将 这 些 元 素 转 化 为 一 个 序列 。 

对 生成 器 函数 执行 next () 是 有 趣 的。 生成 器 函数 将 被 求 值 ， 直 到 直到 yiela 语句 为 止 , 得 到 的 
值 是 next () 的 结果 。 每 次 执行 next () 时， 函数 就 在 yiela 语句 之 后 恢复 处 理 ， 并 继续 执行 下 一 个 
yield 语句 。 

生成 两 个 对 象 的 函数 如 下 所 示 : 


>>> def gen func() : 
print ("pre-yield") 
yield 1 
print ("post-yield") 
yield 2 


执行 next () 的 结果 如 下 所 示 : 


>>> y = gen func() 
>>> next (y) 
pre-yield 

1 

>>> next (y) 
post-yield 

2 
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在 第 一 次 执行 next () 时 , 生成 器 函数 执行 了 第 一 个 print () 函数 ， yield 语句 产生 了 一 个 
值 。 该 函数 暂停 处 理 ， 并 显示 了 >>> 提 示 符 。 在 第 二 次 执行 next () 时 ,该 函数 执行 了 两 个 yiela 语 
句 之 间 的 语句 。 该 函数 再 次 暂停 处 理 ， 并 显示 了 >>> 提 示 符 。 

继续 执行 next () 会 发 生 什么 情况 ?已 经 没有 yield 语句 了 。 


>>> next (y) 
Traceback (most recent call last): 
File "<pyshell...>", line 1, in <module> 
next (y) 
StopIteration 


stopIteration 异常 在 生成 器 函数 结束 时 抛 出 。 














8.2.4 补充 知识 


生成 器 函数 的 核心 价值 在 于 能 够 将 复杂 的 处 理 分 为 两 部 分 : 
口 应 用 于 数据 的 转换 或 过 滤 ; 

口 源 数 据 集 。 
下 面 是 使 用 生成 器 过 滤 数 据 的 示例 。 本 示例 将 过 滤 输 入 值 ， 只 保留 素数 ， 过 滤 掉 所 有 合 数 。 
可 以 将 处 理 过 程 编写 为 Python 函数 ， 如 下 所 示 : 


def primeset (source): 

for i in source: 

if prime(i): 
yield prime 


对 源 集 中 的 每 个 值 执行 prime () 函数 。 如 果 结 果 是 true， 则 产生 源 值 。 如 果 结 果 是 false， 源 
值 将 被 拒绝 。 使 用 primeset () 的 示例 如 下 : 


p_10 = set (primeset (range (2,2000000))) 


primeset () 函数 将 从 源 集中 产生 单个 素数 值 。 源 集 是 2 到 200 万 之 间 的 整数 。 结 果 是 根据 提供 
的 值 构 建 的 set 对 象 。 

上 述 代 码 还 缺少 一 个 确定 数字 是 否 为 素数 的 prime () 函数 ， 该 函数 的 实现 作为 练习 留 给 读者 。 

在 数学 中 , 经 常 可 以 看 到 集结 构 式 或 集 解析 式 标 记 ， 这 些 标记 用 于 描述 从 一 个 集中 构建 另 一 个 得 
的 规则 。 例 如 : 
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P={i:ieN 和 2 < 1<2000000if PO)) 














在 上 述 公 式 中 , N 是 所 有 自然 数 的 集 , Plo 是 所 有 满足 P(D 为 true 的 2 和 200 万 之 间 的 自然 数 i 的 集 。 
上 述 公 式 定 义 了 一 个 构建 集 的 规则 。 
我 们 也 可 以 用 Python 实现 上 述 公式 : 


p_10 = {i for i in range(2,2000000) if prime(i)} 


上 述 Python 代码 用 于 生成 素数 子 集 。 这 些 子 句 的 排列 与 数学 抽象 略 有 不 同 , 但 是 表达 式 的 所 有 基 
本 部 分 依然 存在 。 
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当 我 们 研究 类 似 的 生成 器 表达 式 时 ， 就 会 发 现 许多 程序 设计 都 符合 某 些 常见 模式 。 

口 映射 : {fm(x):x E 引 对 应 (m(x) for x in S)。 

口 过 滤 : fx:xzESifroo} 对 应 (x for x in S if f(x))。 

口 归 约 : 归 约 的 情况 有 点 复杂 ， 但 是 常见 的 归 约 包含 总 和 和 计数 。 > x 对 应 sum(x forxinS)。 
xesS 


其 他 常见 的 归 约 包括 查找 一 组 数据 中 的 最 大 值 或 最 小 值 。 
我 们 也 可 以 使 用 yiela 语句 编写 上 述 高 阶 函 数 。 通 用 映射 函数 的 定义 如 下 所 示 : 


def map(m，S) : 
£OF SENn i 
yield ml(s) 


该 函数 对 源 集 合 s 中 的 每 个 数据 元 素 s 应 用 函数 m()。 映 射 函 数 的 结果 是 一 个 结果 值 序列 。 
通用 filter 函数 的 类 似 定 义 如 下 所 示 : 


def filter(f, S): 
fo Si :9 
i 
yield s 


与 通用 映射 一 样 ， 该 函数 对 源 集合 s 中 的 每 个 元 素 应 用 函数 E() 。 当 函数 f£() 的 值 为 true 时 ， 
就 会 产生 值 。 当 函数 £() 的 值 为 false 时 ， 值 就 会 被 拒绝 。 
使 用 此 函数 创建 一 个 素数 集 的 示例 如 下 : 

D_10 = set (filter(prime, range(2,2000000))) 

上 述 代 码 将 prime () 函数 应 用 于 源 数据 集 。 请 注意 ， 只 有 prime 而 没有 () 字 符 ， 因 为 我 们 只 是 
在 命名 函数 ， 而 不 是 执行 函数 。prime () 函数 将 检查 每 个 单独 的 值 。 那 些 通 过 的 值 将 被 生成 并 组 装 成 
最 终 的 集 。 那 些 合 数 将 被 拒绝 ， 不 会 出 现在 最 终 的 集中 。 
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8.2.5 延伸 阅读 

口 8.3 节 将 组 合生 成 器 函数 ， 从 简单 的 组 件 构 建 复杂 的 处 理 栈 。 

口 8.4 节 将 介绍 如 何 使 用 内 置 map () 函数 从 简单 函数 和 可 迭代 数据 源 创建 复杂 的 处 理 。 

口 8.5 节 将 介绍 如 何 使 用 内 置 filter () 函数 从 简单 的 函数 和 可 和 迭代 的 数据 源 构建 复杂 的 处 理 。 

口 请 参阅 https://projecteuler.net/problem=10， 这 里 有 一 个 具有 挑战 性 的 问题 ， 与 小 于 200 万 的 素 
数 相关 ， 其 中 部 分 问题 似乎 显而易见 ， 但 是 测试 所 有 这 些 素数 可 能 很 困难 。 
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8.2 节 创 建 了 一 个 简单 的 生成 器 函数 ， 对 一 些 数据 执行 了 单一 的 转换 。 实 际 上 ， 我 们 经 常 想 将 多 
个 函数 应 用 于 数据 。 
如 何 堆 又 ( stack ) 或 组 合 多 个 生成 器 函数 来 创建 复合 函数 ? 
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8.3.1 准备 工作 






































本 实例 的 背景 信息 是 一 个 记录 大 型 帆船 燃料 消耗 的 电子 表格 ， 其 内 容 如 下 。 
date engine on fuel height 
engine off fuel height 
Other notes 
10/25/2013 08:24 29 
13:15 2 
calm seas 一 anchor solomon’s island 
10/26/2013 09:12 27 
18:25 22 
choppy 一 anchor in jackson’s creek 











有 关 此 数据 的 更 多 背景 信息 ， 请 参阅 4.4 节 。 
数据 的 处 理 过 程 如 下 所 示 。9.5 节 将 详细 讨论 该 处 理 过 程 。 


>>> from pathlib import Path 
>>> import csv 





>>> with Path('code/fuel.csv').open() as source file: 
reader = csv.reader(source file) 
log_rows = list(reader) 

>>> log_rows[0] 


['date', 'engine on', 'fuel height'] 
>>> log_rows[-1] 


['', "choppy -- anchor in jackson's creek", ''] 


我 们 使 用 csv 模块 读 取 了 ee 息 。csv.reader () 是 一 个 可 迭代 的 对 象 。 为 了 将 元 素 收 
集 到 单个 列表 中 ， 这 里 将 1ist () 函数 应 用 于 生成 器 函数 。 最 后 输出 了 列表 中 的 第 一 个 元 素 和 最 后 一 
个 元 素 ， 以 确认 最 终 获 列表 ( list-of-lists ) 结构 。 

我 们 想 对 这 个 列表 -列表 结构 应 用 两 个 转换 : 
口 将 日 期 和 两 个 时 间 转 换 为 两 个 日 期 时 间 值 ; 
口 将 三 行 合 并 为 一 行 ， 以 便 对 数据 进行 简单 的 组 织 。 
假设 我 们 创建 了 一 对 有 用 的 生成 器 函数 ， 代 码 如 下 所 示 : 


total time = datetime.timedelta(0) 
total_fuel = 0 































































































for row in date_ conversion(row_ merge(source_ data)): 
total _ time += row['end time'] 


-row[l'start_time'] 
total_fuel += rowl['end_ fuel'] 


-rowl[l'start_fuel'] 


) ) 将 产生 一 个 包含 起 始 信 息 、 结 束 信息 和 
注释 的 单行 序列 。 te 





组 合生 成 器 函数 date_conversion (row_merge( 
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8.3.2 ”实战 演练 




















(1) 定义 一 个 组 合 行 的 初始 归 约 操作 。 解 决 这 个 问题 的 方法 有 很 多 ， 其 
合 为 一 组 [ey 


种 方法 是 将 








每 


三 行 组 











另 一 种 方法 是 注意 每 组 数据 行 的 第 零 列 中 只 有 第 一 行 包 含 数据 ， 紧 接着 的 两 行 的 第 零 列 是 空 的 。 
这 样 就 可 以 用 一 种 更 通用 的 方法 来 创建 行 的 分 组 。 这 是 一 种 首尾 合并 (head-tail merge ) 算法 。 收 集 数 





























据 ， 然 后 在 每 次 到 达 下 一 组 行 的 头 部 时 ， 产 生 数 据 。 


def row_ merge (Source_iter) : 


group = [ 
for row in source_iter: 
if len(row[0]) != 0: 
if group: 
yield group 
Group = row.copy() 
else: 
group.extend (row) 
if group: 


yield group 











该 算法 使 用 len (row[0] ) 确定 某 行 在 分 组 的 头 部 还 是 尾部 。 如 果 某 行 在 分 组 头 部 ， 那 么 将 生成 




















先前 的 分 组 。 处 理 完 头 部 的 行 之 后 ，group 集合 的 值 被 重 置 为 分 组 中 头 部 的 行 的 列 数 据 。 














分 组 尾部 的 行 只 是 简单 地 追加 到 group 集合 中 。 当 所 有 数据 处 理 完毕 时 ，group 变量 中 将 包含 























最 终 的 分 组 。 如 果 根 本 就 没有 数据 ， 那 么 group 最 终 的 值 将 是 零 长 度 列 表 ， 应 该 被 忽略 。 











稍 后 会 介绍 copy () 方 法 。 该 方法 至 关 重 要 ， 因 为 我 们 正在 使 用 列表 -列表 数据 结构 ,列表 是 可 变 








对 象 。 我 们 可 以 编写 改变 数据 结构 的 处 理 过程 ， 这 样 某 些 处 理 将 变 得 难以 解释 。 








(2) 定义 对 合并 数据 执行 的 各 种 映射 操作 。 这 些 映射 操作 将 应 用 于 原始 行 中 的 数据 。 我 们 将 使 用 














不 同 的 函数 来 转换 两 个 时 间 列 ， 并 合并 时 间 列 与 日 期 列 。 


import datetime 

def start_datetime (row): 
travel_date = datetime.datetime.strptime(row[0], "%m/%d/%y") .date!() 
start_time = datetime.datetime.strptime(row[1], "%I:%M:%S %$p") .time!() 
start_datetime = datetime.datetime.combine(travel_date, start_time) 
new_row = row+[start_datetime] 
return new_row 





def engd_ datetime (row): 
travel_date = datetime.datetime.strptime(row[0], "%m/%d/%y") .date() 
end _ time = datetime.datetime.strptime(row[4], "%I:%M:%S %p") .time!() 
engd_datetime = datetime.datetime.combine(travel_date, engd time) 
new_row = row+[end_datetime] 
return new_row 






































我 们 将 组 合 第 零 列 中 的 日 期 和 第 一 列 中 的 时 间 ,， 创建 一 个 起 始 Gatet ime 对 象 。 类 似 地 ,组 合 第 











零 列 中 的 日 期 与 第 四 列 中 的 时 间 ， 创 建 一 个 结束 datetime 对 象 。 











这 两 个 函数 有 很 多 重合 ， 可 以 用 列 编 号 作为 参数 值 把 它们 重 构 为 单个 函数 。 但 是 ,我 们 现在 的 目 
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标 只 是 简单 地 实现 功能 ， 提 高 效率 的 重 构 可 以 随后 进行 。 
(3) 定义 应 用 于 派生 数据 的 映射 操作 。 第 八 列 和 第 九 列 包 含 日 期 时 间 戳 。 


def duration (row) : 
travel_hours = round( (row[10]-row[9]) .total_seconds()/60/60, 1) 
new_row = row+[travel_hours] 














return new_row 


将 由 start_datetime 和 eng_datetime 创建 的 值 作为 输入 。 我 们 已 经 计算 了 以 秒 为 单位 的 时 
间 增 量 。 这 里 将 秒 数 转换 为 小 时 数 ， 小 时 数 对 于 这 组 数据 来 说 是 更 有 用 的 时 间 单 位 。 
(4) 包装 拒绝 或 排除 不 良 数据 所 需 的 过 滤器 。 本 例 中 有 一 个 必须 排除 的 标题 行 。 


def skip_header_date (rows): 
for row in rows: 
if row[0] == 'date': 
continue 
yield row 


该 函数 将 拒绝 第 一 列 中 包含 aate 的 所 有 行 。continue 语句 继续 执行 for 语句 ， 跳 过 循环 体 中 
的 其 他 语句 ， 也 跳 过 yiela 语句 。 其 他 所 有 行将 通过 这 个 处 理 过程 。 输 入 是 一 个 可 迭代 对 象 ， 该 生 
成 器 将 产生 没有 经 过 转换 的 行 。 

(5) 组 合 以 上 操作 。 可 以 编写 一 个 生成 器 表达 式 序列 或 者 使 用 内 置 的 map () 函数 。 使 用 生成 器 表 
达 式 的 方式 如 下 所 示 。 


def date_conversion(source): 
tail_gen = skip_header_ date(source) 
start_gen = (start_ datetime(row) for row in tail_gen) 
end_ gen = (end_ datetime(row) for row in start_gen) 
duration gen = (duration(row) for row in end_ gen) 
return duration_ gen 


该 操作 由 一 系列 转换 组 成 。 每 个 转换 都 对 原始 数据 集合 中 的 一 个 值 进行 转换 。 添 加 操作 和 更 改 操 
作 相 对 简单 ， 因 为 每 个 操作 都 是 独立 定义 的 。 
口 跳 过 源 数据 的 第 一 行 之 后 ，tail_gen 生成 器 产生 行 。 
口 start_gen 生成 器 向 源 数据 每 行 的 末尾 追加 了 一 列 ， 这 列 数据 为 由 字符 串 构建 的 起 始 时 间 
datetime 对 象 。 
口 end_gen 生成 器 向 每 行 追加 了 一 个 由 字符 串 构 建 的 结束 时 间 aatetime 对 象 。 
口 dauration_gen 生成 器 追加 了 一 个 具有 行程 持续 时 间 的 float 对 象 。 

函数 aate_conversion() 的 输出 结果 是 一 个 生成 器 。 可 以 用 for 语句 处 理 这 个 生成 器 , 也 可 以 
将 生成 器 中 的 元 素 构建 成 为 一 个 列表 。 


8.3.3 工作 原理 

在 编写 生成 器 函数 时 ， 参 数值 可 以 是 集合 ， 也 可 以 是 另 一 种 可 迭代 的 对 象 。 
迭代 的 ， 因 此 可 以 创建 一 种 生成 器 函数 流水 线 (pipeline )。 

每 个 函数 都 可 以 包含 一 个 小 转换 ， 通 过 改变 输入 的 一 个 功能 来 创建 输出 。 然 后 ， 在 生成 器 表达 式 















































































































































于 生成 名 函数 是 可 
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中 包装 这 些 转 换 。 因 为 每 个 转换 都 与 其 他 转换 相互 隔离 ， 所 以 可 以 在 不 影响 整个 处 理 的 情况 下 对 其 进 
行 更 改 。 
处 理 逐 步 进行 。 每 个 函数 都 将 被 执行 ， 直 到 产生 单个 值 。 思 考 以 下 语句 : 


for row in date_ conversion(row_ merge (data)): 
print (row[11]) 


我 们 定义 了 一 个 由 多 个 生成 器 构成 的 组 合 。 该 组 合 使 用 了 多 种 技术 。 
口 row_merge () 图 数 是 一 个 产生 数据 行 的 生成 器 。 为 了 产生 行 ， 它 将 从 源 数据 中 读 取 4 行 ， 并 
合并 为 一 行 。 每 次 需要 另 一 行 时 ， 它 将 再 读 取 3 行 输入 来 合并 为 输出 行 。 
口 aate_conversion () 函数 是 一 个 由 多 个 生成 器 组 成 的 复杂 生成 吉 。 
口 skip_headqer_qate() 是 为 产生 单一 值 而 设计 的 。 有 时 ， 它 必须 从 源 和 迭代 器 读 取 两 个 值 。 如 
果 输 入 行 的 第 零 列 包含 aate 字符 ， 则 跳 过 该 行 。 在 这 种 情况 下 ， 它 会 读 取 第 二 个 值 ， 从 
row_merge () 中 获取 另 一 行 。 相 应 地 ， 它 必须 再 读 取 3 行 输入 来 产生 一 个 合并 的 输出 行 。 最 
后 ， 将 该 生成 器 赋值 给 tail_gen 变量 。 
口 start_gen、engd_gen 和 duration_gen 生成 器 表达 式 将 对 输入 的 每 一 行 应 用 相当 简单 的 函 
数 ， 例 如 start_qatetime() 和 enq_dqatetime()， 最 终 产 生 包 含 更 多 有 用 数据 的 行 。 
示例 中 最 后 显示 的 for 语句 通过 反复 执行 next () 困 数 从 date_conversion () 友 代 器 收集 值 。 
创建 所 需 结 果 的 步骤 如 下 所 示 。 请 注意 , 这 些 步骤 适用 于 少量 数据 , 其 中 每 一 步 都 会 产生 一 个 小 改变 。 
(1) aate_conversion () 函数 的 结果 是 duration_gen 对 象 。 为 了 返回 一 个 值 ， 需 要 一 个 来 自 
源 数据 eng_gen 的 行 。 一 旦 有 了 数据 ， 就 可 以 应 用 auration () 函数 ， 并 产生 行 。 
(2) endq_gen 表达 式 需要 一 个 来 自 源 数 据 start_gen 的 行 ， 然 后 就 可 以 应 用 enq_aatetime () 
函数 ， 并 产生 行 。 
(3) start_gen 表达 式 需 要 一 个 来 自 源 数据 tail_gen 的 行 ,然后 就 可 以 应 用 start_qdatetime() 
函数 ， 并 产生 行 。 
(4) tail_gen 表达 式 即 生成 髓 skip_headqer_qate() 。 该 函数 将 从 源 数据 中 读 取 尽 可 能 多 的 行 ， 
直到 找到 第 零 列 不 是 列 标题 aate 的 行 。 它 将 产生 一 个 非 日 期 行 。 源 数据 来 自 row_merge () 函数 的 输出 。 
(5) row_merge () 图 数 将 从 源 数据 中 读 取 多 个 行 ， 直 到 可 以 组 合成 一 个 适合 所 需 模式 的 行 集合 。 
它 将 产生 一 个 组 合 行 ， 其 中 第 零 列 中 有 一 些 文本 ， 随 后 是 第 零 列 没有 文本 的 行 。 源 数据 是 一 个 原始 数 
据 的 列表 -列表 集合 。 
(6) 行 的 集合 将 由 row_merge () 函数 内 部 的 for 语句 处 理 。 该 处 理 将 隐 式 地 为 集合 创建 一 个 迭代 
器 ， 以 便 根据 row_merge () 函数 体 的 需要 生成 每 一 行 。 
每 个 数据 行 都 将 按照 这 些 步 又 进行 处 理 。 其 中 一 些 步 又 将 使 用 多 个 源 数 据 行 生 成 单个 结果 行 , 并 
在 处 理 数据 时 重 构 数 据 。 其 他 步骤 只 使 用 单个 值 。 
该 示例 依赖 于 将 多 个 元 素 连接 为 一 个 值 序列 。 元 素 由 索引 位 置 标识 。 更 改 各 个 步 又 的 顺序 将 改变 
元 素 的 位 置 。 改 进 的 方法 有 很 多 种 ， 随 后 的 实例 将 详细 讨论 。 
这 种 方法 的 核心 在 于 每 次 只 处 理 单独 的 行 。 如 果 源 数据 是 一 个 巨大 的 数据 集合 ,那么 就 可 以 非常 
快速 地 进行 处 理 。 这 种 技术 可 以 让 Python 小 程序 快速 简单 地 处 理 大 量 数据 。 
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8.3.4 补充 知识 





实际 上 ,一 组 相互 关联 的 生成 器 就 是 一 种 复合 函数 。 我 们 可 能 有 多 个 函数 ， 分 别 定 义 如 下 : 








y=f(x) 
z=g(y) 


可 以 通过 将 第 一 个 函数 的 结果 应 用 于 第 二 个 函数 来 组 合 这 两 个 函数 : 








z=g(/ (0) 








随 着 函数 数量 的 增加 ， 这 个 表达 式 可 能 会 变 得 非常 复杂 。 当 我 们 在 多 个 地 方 使 用 这 两 个 函数 时 ， 





就 违背 了 不 要 重复 自己 (Don'tRepeat Yourself，DRY ) 原则 。 使 用 这 个 复杂 表达 式 的 多 个 副本 并 不 是 


理想 的 方法 。 


我 们 需要 一 种 创建 复合 函数 的 方法 ， 



































如 下 所 示 : 
z=(8°f)%) 





我 们 定义 了 一 个 新 函数 (g。f)， 该 函数 把 两 个 原始 函数 组 合 为 一 个 新 的 单一 的 复合 函数 。 可 以 修改 这 


个 复合 函数 ， 添 加 或 更 改 功能 。 





这 个 概念 推动 了 复合 函数 date_conversion() 的 定义 。 该 函数 由 多 个 函数 组 成 ,其 中 每 个 函数 
都 可 应 用 于 集合 中 的 元 素 。 如 果 需 要 进行 更 改 ， 可 以 编写 更 简单 的 函数 ， 并 将 其 放 入 由 
date_conversion() 函数 定义 的 流水 线 中 。 

我 们 可 以 看 到 流水 线 中 的 函数 之 间 有 些 细微 的 差异 ， 其 中 有 一 些 类 型 转换 。 但 是 ， 持 续 时 间 计 算 





并 不 是 真正 的 类 型 转换 ， 而 是 一 个 基于 日 期 转换 结果 的 单独 计算 。 如 果 要 计算 每 小 时 的 燃料 使 用 量 ， 
那么 需要 再 添加 更 多 的 计算 。 这 些 附加 的 汇总 都 不 是 日 期 转换 的 一 部 分 。 



























































应 该 把 高 阶 函 数 aata_conversion () 分 成 两 部 分 ， 另 外 再 编写 一 个 函数 ， 用 于 计算 持续 时 间 和 





燃料 使 用 量 ， 并 将 其 命名 为 fuel_use ( 











) 。 该 函数 可 以 包 于 date_conversion()。 如 下 所 示 : 


for row in fuel use(date conversion(row merge (dqata) ) ) : 


print (row{[11]) 





我 们 现在 有 一 个 非常 复杂 的 计算 ， 定 义 在 许多 非常 小 的 《几乎 ) 完全 独立 的 块 中 。 可 以 在 不 必 深 


思 熟 虑 其 他 部 分 工作 原理 的 情况 下 修改 其 





用 命名 空间 替代 列表 

















块 。 





本 实例 另 一 个 重要 的 变化 是 不 再 避免 对 数据 值 使 用 简单 的 列表 。 计 算 *ow[10] 是 一 个 潜在 的 灾 
难 。 我 们 应 该 将 输入 数据 转换 为 某 种 命名 空间 。 
可 以 使 用 namedatuple，8.10 节 将 详细 研究 这 种 数据 结构 。 




















SimpleNamespace 可 以 在 某 些 方 男 
以 更 新 。 更 改 对 象 并 不 总 是 最 好 的 做 法 。 











变化 编写 测试 也 可 能 会 稍微 麻烦 一 些 。 








j 进 一 步 简化 这 个 处 理 。SsimpleNamespace 是 可 变 对 象 ， 可 
SimpleNamespace 的 优点 是 简单 ， 但 是 为 可 变 对 象 的 状态 





像 make_namespace () 这 样 的 函数 可 以 提供 一 组 名 称 来 奉 代 索 引 位 置 。 该 函数 是 一 个 生成 器 , 必 
须 在 行 合并 后 才能 使 用 ， 但 是 这 种 使 用 必须 在 其 他 处 理 过 程 之 前 。 


from types import SimpleNamespace 
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def make namespace (merge_iter): 
for row in merge_ iter: 
ns = SimpleNamespacel 
date = row[0], 
start_time = row[1], 
start_fuel _ height = row[2], 
endq_ time = row[4], 
end_fuel height = row[5], 
other_notes = row[7] 
) 
yield ns 


该 函数 将 产生 一 个 允许 用 row.date 代 奉 row[0] 的 对 象 。 当 然 ， 这 种 变化 会 改变 其 他 函数 的 定 
义 , 包括 start_datetime()、end_datetime() 和 duration()。 
每 个 函数 都 可 以 生成 一 个 新 simpleNamespace 对 象 ， 而 不 是 更 新 表示 每 一 行 的 值 列表 。 我 们 可 
以 编写 如 下 函数 : 
def quration(row ns) : 
travel time = row_ns.end timestamp - owns.statt timestamp 
travel_hours = round(travel time.total_seconds()/60/60, 1) 
return SimpleNamespacel 


xxVarSs (row_ns), 
travel_hours=travel_hours 




















由 








) 
该 函数 把 行 作为 SimpleNamespace 对 象 而 不 是 1ist 对 象 来 处 理 。 这 些 列 具有 清晰 而 有 意义 的 
名 称 ， 如 row_ns .engd_timestamp， 而 不 是 隐 星 的 名 称 ， 如 row[10]。 
从 旧 的 命名 空间 构建 新 的 SimpleNamespace 的 处 理 可 以 分 为 3 个 部 分 。 
(1) 使 用 vars () 函数 提取 simpleNamespace 实例 中 的 字典 。 
(2) 使 用 **vars (row_ns) 对 象 根据 旧 的 命名 空间 构建 一 个 新 的 命名 空间 。 
(3) 任何 其 他 关键 字 参 数 都 提供 了 加 载 新 对 象 的 附加 值 ， 例 如 travel_hours = travel_hours。 
另 一 种 方法 是 更 新 命名 空间 并 返回 已 更 新 的 对 象 。 
def duration(row ns): 
travel_ time = row_ ns.end timestamp - row ns.start timestamp 


row_ns.travel_hours = round(travel time.total_ seconds()/60/60, 1) 
return row_ns 


这 种 方法 的 优点 在 于 实现 稍微 简单 一 些 , 缺点 在 于 有 状态 对 象 有 时 候 会 引起 混乱 。 修 改 算法 时 有 
可 能 无 法 按照 正确 的 顺序 设置 属性 ， 以 便 惰性 (或 反应 式 ) 程序 可 以 正常 运行 。 

虽然 有 状态 的 对 象 很 常见 , 但 是 应 该 始终 将 其 视 为 两 种 选择 之 一 。 不 可 变 的 namedtuple 可 能 是 
比 可 变 的 simpleNamespace 更 好 的 选择 。 
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8.3.5 延伸 阅读 


口 有 关 生 成 器 函数 的 介绍 ， 请 参阅 8.2 节 。 
口 有 关 燃 料 消耗 数据 集 的 更 多 信息 ， 请 参阅 4.4 节 。 
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口 另 一 种 组 合 操作 的 方法 ， 请 参阅 8.7 节 。 


8.4 将 转换 应 用 于 集合 


8.2 节 讨 论 了 如 何 编写 生成 器 函数 。 该 实例 的 示例 组 合 了 两 个 元 素 : 转换 和 数据 源 。 编 写生 成 器 
的 模板 如 下 : 


for item in source: 
new_item = some transformation of item 
yield new_item 


上 述 模 板 并 不 是 必须 遵循 的 ， 这 只 是 一 种 常见 的 模式 。for 语句 中 隐藏 了 一 个 转换 过 程 。for 语 
句 在 很 大 程度 上 是 样板 代码 。 Re 使 转换 函数 更 加 明晰 ， 并 与 for 语句 分 离 。 

8.3 节 定 义 了 一 个 start_datetime () 函数 ,该 函数 通过 计算 源 数据 集 的 两 个 单独 列 中 的 字符 串 
值得 到 了 一 个 新 的 aatetime 对 象 。 

可 以 在 生成 器 函数 的 函数 体 中 使 用 start_dqatetime () 国 数 ， 如 下 所 示 : 


def start_dgen(tail_gen) : 
for row in tail_gen: 
new_row = start_datetime (row) 

yield new_row 


上 述 函 数 将 start_qdatetime () 函数 应 用 于 数据 源 tail_gen 中 的 每 个 元 素 ， 最 后 产生 了 相应 
的 结果 行 ， 这 样 另 一 个 函数 或 for 语句 就 可 以 使 用 这 些 结果 行 了 。 
8.3 节 还 研究 了 另 一 种 方法 ， 可 以 将 这 些 转换 函数 应 用 于 更 大 的 数据 集 。 该 例 使 用 了 一 个 生成 需 


表达 式 ， 代 码 如 下 所 示 
start_gen = (start_ datetime(row) for row in tail_gen) 2300 


上 述 代 码 将 start_gatetime () 函数 应 用 于 数据 源 tail_gen 中 的 每 个 元 素 。 另 一 个 函数 或 for 
语句 可 以 使 用 可 迭代 的 start_gen iterable 中 的 值 。 

完整 的 生成 器 函数 和 较 短 的 生成 吉 表 达 式 在 本 质 上 是 相同 的 ， 只 是 语法 略 有 不 同 。 两 者 都 是 类 似 
于 集结 构 式 或 集 解 析 式 的 数学 概念 。 该 操作 的 数学 描述 如 下 所 示 : 

s=[S(r):reE7T] 

在 这 个 表达 式 中 ，S 是 start_dqatetime() 国 数 ,， 了 是 值 序列 tail_gen。 结 果 序 多 
中 > 的 每 个 值 都 是 集合 7 的 一 个 元 素 。 
生成 器 函数 和 生成 器 表达 式 都 有 类 似 的 样板 代码 。 如 何 简化 这 些 代 码 呢 ? 


8.4.1 准备 工作 


本 实例 的 背景 信息 是 来 自 8.2 节 的 Web 日 志 数据 。 数 据 中 含有 字符 串 形 式 的 日 期 ， 我 们 想 将 其 转 
换 为 正确 的 时 间 戳 。 
示例 数据 如 下 所 示 : 
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是 S(7) 的 值 ， 其 
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>>> data = [ 
('2016-04-24 11:05:01,462', 'INFO', 'modulel', 'Sample Message One'), 
('2016-04-24 11:06:02,624', 'DEBUG', 'module2', 'Debugging'), 
('2016-04-24 11:07:03,246', 'WARNING', 'modulel', 'Something might have 
gone wrong') 
] 


数据 转换 函数 如 下 所 示 : 


import datetime 
def parse date_ iter(source): 
for item in source: 
date = datetime.datetime.strptimel( 


item[0], 
"SY-%Sm-%d %H: SM:%$S,%f") 
new_item = (date,)+item[1:] 


yield new_item 
六 限 数 使 用 一 个 for 语句 检查 源 数据 中 的 每 个 元 素 。 第 零 列 中 的 值 是 一 个 日 期 字符 串 , 可 以 将 其 转 
换 为 适当 的 aatetime 对 象 。 新 元 素 new_item 是 从 datetime 对 象 构建 的 ， 其 余 元 素 从 第 一 列 开 始 。 
因为 该 函数 使 用 yield 语句 来 产生 结果 ， 所 以 它 是 一 个 生成 器 函数 。 可 以 结合 for 语句 使 用 该 
函数 ， 如 下 所 示 : 


for row in parse_ date _ iter(data): 
print (row[0], row[3]) 


上 述 语句 收集 由 生成 右 函 数 产 生 的 每 个 值 ， 并 打印 其 中 两 个 选 定 值 。 
parse_date_iter () 限 数 将 两 个 基本 元 素 组 合 为 单个 函数 ， 如 下 所 示 : 


for item in source: 
new_item = transformation (item) 
yield new_item 


for 语句 和 yield 语句 基本 上 都 是 样板 代码 。transformation() 限 数 是 真正 有 用 的 部 分 。 




































































8.4.2 ”实战 演练 


(1) 编写 应 用 于 单行 数据 的 转换 函数 。 该 函数 不 是 生成 器 函数 ， 不 用 使 用 yiela 语句 。 它 只 是 简 
单 地 修改 集合 中 的 一 个 元 素 。 


def parse date (item): 
date = datetime.datetime.strptimel( 








item[0], 
"SY-%Sm-%d %H: SM:%$S,%f") 
new_item = (date,)+item[1:] 


return new_item 


使 用 该 函数 的 方式 有 三 种 : 语句 、 表 达 式 和 map () 函数 。 显 式 的 for. . .yield 语句 模式 如 下 所 示 : 


for item in collection: 
new_item = parse_ date (item) 
yield new_item 
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这 种 方式 通过 for 语句 来 使 用 单独 的 parse_qdate () 函数 处 理 集 合 中 的 每 个 元 素 。 第 二 种 方式 是 
使 用 生成 器 表达 式 ， 如 下 所 示 : 

(parse_date(item) for item in data) 

上 述 表达 式 是 一 个 将 parse_aate() 函数 应 用 于 每 个 元 素 的 生成 器 表达 式 。 第 三 种 方式 是 使 用 
map () 函数 。 

(2) 使 用 map () 函数 将 转换 应 用 于 源 数据 。 

map (parse_date, data) 

我 们 提供 了 也 数 名 称 parse_qate， 名 称 后 面 没 有 () 。 目 前 还 没有 应 用 该 函数 。 我 们 将 对 象 的 名 
称 提 供给 了 map () 函数 ， 以 便 将 parse_dqate() 函数 应 用 于 可 迭代 的 数据 源 data。 

通过 map () 使 用 该 函数 的 方式 如 下 : 


for row in map(parse_date, data): 
print (row[0], row{[3]) 


map () 函数 创建 了 一 个 可 迭代 的 对 象 ， 该 对 象 将 parse_date () 函数 应 用 于 数据 迭代 中 的 每 个 元 
素 ， 最 终 产 生 每 个 单独 的 元 素 。 这 样 我 们 就 无 须 编写 生成 器 表达 式 或 生成 器 函数 了 。 


8.4.3 工作 原理 
map () 函数 替代 了 一 些 常见 的 样板 代码 。 假 设 map () 函数 的 定义 如 下 所 示 : 


def map(f, iterable): 
for item in iterable: 
yield f(item) 




























































































或 者 : 


def map(f, iterable): 
return (f(item) for item in iterable) 


这 两 个 定义 总 结 了 map () 函数 的 核心 功能 。 这 是 一 种 方便 的 简写 ,消除 了 一 些 将 函数 应 用 于 可 过 
代数 据 源 的 样板 代码 。 





























8.4.4 补充 知识 


本 例 使 用 map () 函数 将 idaex () 函数 应 用 于 一 个 迭代 中 的 每 个 元 素 , 这 些 元 素 都 是 index () 函数 
的 单一 参数 值 。 实 际 上 ，map () 函数 的 功能 远 不 止 这 些 。 
假设 有 如 下 函数 : 


>>> def mul(a, b): 
return a*b 


以 及 两 个 数据 源 : 


>>> list 1 = [2, 3, 5, 7] 
>>> list 2 = [11, 13, 17, 23] 


我 们 可 以 将 mul () 函数 应 用 于 从 每 个 数据 源 中 提取 的 一 对 数据 : 
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>>> list(map(mul, list_ 1, list 2)) 
[22, 39, 85, 161] 


还 可 以 使 用 不 同类 型 的 运算 符合 并 两 个 值 序列 ,例如 , 可 以 构建 一 个 类 似 内 置 zip () 函数 的 映射 。 
如 下 所 示 : 


>>> def bundle(*args) : 














和 return args 

>>> list(map(bundle, list 1, list 2)) 

[(2, 11), (3, 13), (5, 17), (7, 23)] 

我 们 需要 定义 一 个 辅助 函数 pundle () ， 该 函数 可 以 接收 任意 数量 的 参数 ， 并 由 这 些 参数 创 于 
个 元 组 。 

zip 函数 的 示例 如 下 : 

>>> list(zip(list 1, list 2)) 

[(2, 11), (3, 13), (5, 17), (7, 23)] 








和 





8.4.5 延伸 阅读 


口 8.3 节 讨 论 了 生成 器 栈 。 该 实例 从 编写 作为 生成 器 函数 的 多 个 单独 的 映射 操作 中 构建 了 一 个 复 
合 函 数 ， 还 在 生成 器 栈 中 包含 了 一 个 过 滤器 。 


8.5 ”选择 子 集 一 一 三 种 过 滤 方 式 


8.3 节 编 写 了 一 个 从 一 组 数据 中 排除 某 些 行 的 生成 铝 函 数 。 该 函数 如 下 所 示 : 


def skip_header_date (rows): 
for row in rows: 
if row[0] == 'date': 
continue 
yielgd row 


当 条 件 为 true 时 ， 即 row[10] 的 值 为 'date' 时 ，continue 语句 将 跳 过 for 循环 体 中 的 其 余 语 
句 。 在 本 例 中 ， 只 有 一 个 yiela row 语句 。 























上 述 函 数 有 两 种 情况 。 
口 row[0] == 'date': 跳 过 yiela 语句 ， 函 数 将 拒绝 进一步 处 理 对 应 的 行 。 














口 row[0] != 'date': yield 语句 意味 着 对 应 的 行将 被 传递 给 正在 使 用 数据 的 函数 或 语句 。 
函数 体 中 的 4 行 代码 看 起 来 有 些 嘿 唆 。for. . .if.. .yield 模式 是 样板 代码 , 在 这 种 结构 中 ,只 
有 条 件 才 是 真正 重要 的 。 
如 何 简洁 地 表达 这 种 结构 ? 


8.5.1 准备 工作 
本 实例 的 背景 信息 是 一 个 记录 大 型 帆船 燃料 消耗 的 电子 表格 ， 甚 内容 如 下 。 
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date engine on fuel height 
engine off fuel height 
Other notes 


























10/25/2013 08:24 29 
13:15 27 
calm seas 一 anchor solomon’s island 

10/26/2013 09:12 27 
18:25 22 











choppy — anchor in jackson’s creek 
有 关 此 数据 的 更 多 背景 信息 ， 请 参阅 4.4 节 。 
8.3 节 定 义 了 两 个 函数 来 重新 组 织 这 些 数 据 。 第 一 个 函数 将 每 组 中 的 3 行 数据 合并 为 1 行 , 结果 行 
共有 8 列 数据 。 


def row_ merge(source_iter): 





group = [] 
for row in source_iter: 
if len(row[0]) != 0: 
if group: 


yield group 
group = row.copy() 
else: 
group.extend (row) 
if group: 
yield group 








上 述 代码 是 首尾 (head-tail ) 算法 的 一 种 变 体 。 当 len (row[0]) != 0 时 ,该 行 是 新 分 组 的 标题 
行 , 先前 处 理 完 的 分 组 将 被 生成 , 然后 基于 该 标题 行将 group 变量 的 值 重 置 为 新 的 列表 。 使 用 copy () 
是 为 了 避免 稍 后 更 改 列表 对 象 。 当 len (row[0]) == 0 时 ,该 行 是 分 组 的 尾部 ， 将 被 追加 到 group 
变量 的 值 中 。 在 数据 源 的 末尾 ， 通 常 需要 处 理 一 个 完整 的 分 组 。 有 一 种 边界 情况 ， 即 根本 没有 数据 ， 
在 这 种 情况 下 ， 不 会 产生 任何 最 终 的 分 组 。 

可 以 使 用 该 函数 将 数据 由 多 行 混乱 的 信息 转换 为 单行 有 用 的 信息 。 


>>> from ch08_r02 import row merge, log_rows 
>>> pprint (list(row merge(log_ rows))) 















































[['date', 
'engine on', 
"fuel height', 
'engine off', 
"fuel height', 
"Other notes', 
i 

['10/25/13', 
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"08:24:00 AM', 
3 


T 
了 


"01:15:00 PM', 
127 5 ， 


[ul 
了 


"calm seas -- anchor solomon's island", 
四 

['10/26/13', 

"09:12:00 AM', 

27 


[Lu 
了 


"06:25:00 PM', 
22 5 


T 
了 


"choppy -- anchor in jackson's creek", 
| 


第 一 行 是 电子 表格 的 表 头 ， 我 们 想 跳 过 这 一 行 。 本 实例 将 创建 一 个 生成 器 表达 式 来 过 滤 这 个 多 余 
的 行 。 


8.5.2 ”实战 演练 


(1) 编写 检验 元 素 的 判定 函数 。 该 函数 检查 元 素 并 确认 其 是 否 应 该 通过 过 滤器 进行 进一步 处 理 。 
在 某 些 情况 下 ， 必 须 先 确定 拒绝 规则 ， 然 后 对 规则 取 反 ， 建 立 通 过 规则 。 


def pass_non_aqate(zow) : 
return row[0] != 'date' 


使 用 该 函数 的 方式 有 三 种 : 语句 、 表 达 式 和 filter () 函数 。 用 于 通过 行 的 for.. .if...yield 
语句 的 显 式 模式 如 下 所 示 : 


for item in collection: 
if pass_non date(item): 
yielgd item 


上 述 模 式 通过 一 个 for 语句 使 用 过 滤 需 函数 处 理 集合 中 的 每 个 元 素 。 产 生 选 定 元 素 , 拒绝 其 他 元 素 。 
使 用 该 函数 的 第 二 种 方式 是 在 生成 器 表达 式 中 使 用 ， 如 下 所 示 : 


(item for item in data if pass_non date (item)) 


上 述 生成 器 表达 式 将 过 滤器 函数 pass_non_dqate() 应 用 于 每 个 元 素 。 第 三 种 方式 是 在 filter() 
函数 中 使 用 。 
(2) 使 用 filter () 函数 ， 将 pass_non_date() 函数 应 用 于 源 数据 。 


filter(pass_non date, data) 


我 们 提供 了 函数 名 称 pass_non_qate, 而 不 需要 名 称 后 面 的 () 字 符 ,因为 这 样 表达 式 pass_non_ 
date 就 不 会 执行 函数 。filter () 函数 将 给 定 函数 应 用 于 可 迭代 的 数据 源 aata。 在 本 例 中 ，data 是 一 
个 集合 ， 但 它 也 可 以 是 任何 可 迭代 的 对 象 ， 包 括 之 前 的 生成 器 表达 式 的 结果 。pass_non_qate() 函数 
结果 为 true 的 每 个 元 素 将 通过 过 滤器 ， 其 他 值 都 将 被 拒绝 。 如 下 所 示 : 
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for row in filter(pass_non date, row_merge(data)): 
print (row[0], row[1], row[4]) 


filter () 涵 数 创建 了 一 个 可 迭代 对 象 , 该 对 象 应 用 pass_non_qate() 函数 作为 规则 来 通过 或 和 
绝 可 迭代 的 row_merge (data) 中 的 每 个 元 素 。 上 述 代 码 将 产生 第 零 列 中 不 包含 date 的 行 。 

















Ial 














8.5.3 工作 原理 
filter () 函数 蔡 代 了 一 些 常见 的 样板 代码 。 假 设 filter () 函数 的 定义 如 下 所 示 


def filter(f, iterable): 
for item in iterable: 

if f(item): 
yield f (item) 








或 者 : 


def filter(f, iterable): 
return (item for item in iterable if f(item)) 


这 两 个 定义 总 结 了 filter () 函数 的 核心 功能 : 通过 某 些 数据 并 拒绝 某 些 数据 。 这 是 一 种 方便 的 
简写 ， 消 除了 一 些 将 函数 应 用 于 可 迭代 数据 源 的 样板 代码 。 


























8.5.4 补充 知识 
有 时 很 难 编写 一 个 简单 的 通过 数据 的 规则 。 编 写 一 个 拒绝 数据 的 规则 可 能 会 更 清晰 。 例 如 ， 以 下 
代码 可 能 更 容易 理解 : 


def reject_date (row): 
return row[0] == 'date' 






































可 以 通过 多 种 方式 使 用 拒绝 规则 ， 其 中 一 种 是 使 用 for.. .if...continue...yield 模式 的 语 
名 ， 如 下 所 示 。 这 段 代码 将 使 用 continue 跳 过 被 拒绝 的 行 ， 并 生成 剩余 的 行 : 


for item in collection: 
if reject_date (item): 
continue 
yield item 


还 可 以 使 用 for.. .if...continue...yield 模式 的 变 体 。 对 于 某 些 程序 员 来 说 ,不 拒绝 的 概 
念 让 人 疑惑 ， 它 似乎 是 一 个 双重 否定 : 


for item in collection: 
if not reject_date(item): 
yield item 


使 用 生成 器 表达 式 也 可 以 ， 如 下 所 示 : 

(item for item in data if not reject_ date(item)) 

但 是 ， 不 能 随意 地 对 拒绝 数据 的 规则 使 用 filter () 函数 。filter() 函数 仅 适 用 于 通过 规则 。 
处 理 这 种 逻辑 的 基本 选择 有 两 种 : 将 逻辑 包装 在 另 一 个 表达 式 中 ,或 者 使 用 itertools 模块 中 
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的 某 个 函数 。 包装 逻辑 也 有 两 种 方法 , 其 中 一 种 方法 是 通过 包装 拒绝 函数 来 创建 通过 函数 。 代码 如 下 : 


def pass_date (row): 
return not reject_date (row) 


这 样 就 可 以 创建 一 个 简单 的 拒绝 规则 并 在 filter () 函数 中 使 用 。 另 一 种 包装 逻辑 的 方法 是 创建 
一 个 lambda 对 象 : 

filter(lambda item: not reject_date(item), data) 

lambda 是 一 种 小 的 匿名 函数 ， 这 种 简化 的 函数 只 有 两 个 元 素 : 参数 列表 和 一 个 表达 式 。 我 们 通 
过 1ambda 对 象 包装 reject_dqate() 函数 ， 创 建 了 一 种 not_reject_gdate 函数 。 
在 itertools 模块 中 ,可 以 使 用 filterfalse() 也 数 包装 逻辑 ,我 们 可 以 导入 filterfalse() 
并 用 它 替 代 内 置 的 filter() 函数 。 



































8.5.5 延伸 阅读 


口 8.3 节 将 类 似 的 函数 放 在 了 生成 器 栈 中 ， 该 实例 通过 编写 作为 生成 器 函数 的 多 个 单独 的 映射 和 
过 滤 操 作 ， 构 建 了 一 个 复合 函数 。 


8.6 ”汇总 集合 一 一 如 何 归 约 


8.1 节 介 绍 了 三 种 常见 的 处 理 模式 : 映射 、 过 滤 和 归 约 。8.4 节 给 出 了 映射 的 示例 ，8.5 节 给 出 了 过 
滤 的 示例 。 通 过 这 些 实例 ， 很 容易 了 解 这 些 操作 成 为 通用 操作 的 原因 。 

映射 将 一 个 简单 的 函数 应 用 于 集合 中 的 所 有 元 素 。{M (x) :x E CC} 将 函数 M 应 用 于 集合 C 中 的 每 
个 元 素 x。 可 以 用 Python 表示 这 种 模式 : 

(M(x) for x in C) 
或 者 ， 使 用 内 置 的 map () 函数 移 除 样板 代码 并 简化 为 : 

map (M, c) 

类 似 地 ， 过 滤 使 用 一 个 函数 从 集合 中 选择 元 素 。{x :x E CifR co)} 使 用 函数 下来 确定 是 通过 还 是 
拒绝 集合 C 中 的 元 素 x。Python 可 以 用 多 种 方式 表示 这 种 模式 ， 其 中 一 种 方式 如 下 : 


filter(F, c) 


这 种 方式 对 集合 < 应 用 了 判定 函数 F( 

第 三 种 常见 的 模式 是 归 约 。6.3 节 和 6.7 i 多 个 统计 值 的 类 定义 。 这些 定 义 几乎 完全 依 
赖 于 内 置 函 数 sum() 。 这 是 一 种 常见 的 归 约 。 

如 何以 能 够 编写 多 个 不 同 种 类 的 归 约 的 形式 来 概括 求 和 操作 ? 如 何 用 更 通用 的 方式 定义 归 约 的 


概念 ? 
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8.6.1 准备 工作 











最 常见 的 一 种 归 约 形式 就 是 求 和 。 其 他 的 归 约 形式 包括 乘积 、 最 小 值 、 最 大 值 、 均 值 、 方 差 ， 甚 
至 是 简单 的 计数 。 
应 用 于 集合 C 中 值 的 求 和 函数 的 数学 定义 如 下 所 示 : 














DC 
cieC 


我 们 通过 将 + 运算 符 插入 值 序列 C= co cu c2,…, ci 中 扩展 了 求 和 的 定义 。 在 + 运算 符 中 折 垒 ( folding ) 
诠释 了 内 置 函数 sum() 的 含义 。 
类 似 地 ， 乘 积 的 定义 如 下 所 示 : 





Te =cxcxcx…xe， 
eC 








该 定义 对 一 个 值 序列 执行 了 不 同 的 折 又 ( fold )。 通过 折 鳃 扩展 归 约 涉及 两 个 元 素 : 二 元 运算 符 和 基数 
值 。 对 于 求 和 ， 运 算 符 为 + ， 基 数值 为 0。 对 于 乘积 ， 运 算 符 为 x， 基 数值 为 1。 

我 们 可 以 定义 一 个 通用 的 高 阶 函数 Fe ， 该 函数 诠释 了 折 受 思想。 折 肥 函数 的 定义 包括 运算 符 9 
的 占 位 符 和 基数 值 上 的 占 位 符 。 给 定 集合 C 的 函数 值 可 以 使 用 这 个 递归 规则 定义 : 



































ED(C) = 、 
ob- RonD(Co DC CG 























如 果 集 合 C 为 空 ， 则 值 为 基数 值 上 。 在 定义 sum() 时 ， 基 数值 为 0。 如 果 C 不 为 空 ， 那 么 首先 计算 集 
合 中 除 最 后 一 个 值 之 外 的 所 有 值 的 折 友 结果 Fo (C01)， 然 后 在 上 一 个 折 革 结果 和 集合 中 的 最 后 一 
个 值 C_ 之 间 应 用 运算 符 ， 例 如 +。 对 于 sum() ， 操 作 符 为 +。 

我 们 用 Cu ,符号 表示 Python 意义 上 的 开放 区 间 ， 包括 索引 为 0 到 -1 之 间 的 值 , 但 不 包括 索引 n 
的 值 。 这 意味 着 Coo= 纪 : 在 Coo 范 围 内 没有 元 素 。 

这 个 定义 被 称 为 从 左 向 右 折 又 ( fold left ) 操作 ,因为 该 定义 的 实际 效果 是 在 集合 中 从 左 到 右 执行 
底层 操作 。 类 似 地 ， 也 可 以 定义 从 右 向 左 折叠 (fold right ) 操作 。 由 于 Python 的 reduce () 函数 是 一 
种 从 左 向 右 折 靶 操作， 因此 本 实例 坚持 使 用 从 左 向 右 折 对 的 定义 。 

我 们 定义 了 一 个 可 用 于 计算 阶乘 值 的 prod () 函数 : 


n!= [Il x 
l<x<n+l 


n 的 阶乘 的 值 为 1 和 之 间 的 所 有 数字 的 乘积 。 由 于 Python 使 用 半 开 区 间 ， 通过 1 < x<n+1 使 用 或 
定义 范围 更 符合 Python 风格 。 该 定义 更 好 地 匹配 了 内 置 的 range () 函数 。 

使 用 之 前 定义 的 折 县 运算 符 ， 阶 乘 的 定义 如 下 。 我 们 使 用 乘法 运算 符 * 和 基数 值 1 定义 了 一 个 折 
寺 (或 归 约 ): 
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nl= [| x*=FG:1<i<n+)) 
l<x<n+l 
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思想 应 用 于 许多 算 




















是 一 种 通用 概念 , 它 是 Python 的 reduce () 概念 的 基础 。 我们 可 以 将 折 
法 ， 这 有 可 能 简化 定义 。 

















8.6.2 ”实战 演练 
(1) 从 functools 模块 导入 reduce () 函数 。 


>>> from functools import reduce 
(2) 选择 运算 符 。 对 于 求 和 ， 运 算 符 为 +。 对 于 乘积 ， 运 算 符 为 *。 运 算 符 的 定义 方法 有 多 种 。 长 
版 本 如 下 所 示 ， 定 义 必要 的 二 元 运算 符 的 其 他 方法 将 在 随后 演示 。 


>>> def mul(a, b): 
return a*Db 


(3) 选择 对 应 的 基数 值 。 对 于 求 和 ， 基 数值 为 0。 对 于 乘积 
算 乘 积 的 prod() 函数 。 


>>> def prod(values) : 
return reduce(mul, values, 

















， 基 数值 为 1。 这 样 就 可 以 定义 一 个 计 





1) 





(4) 对 于 阶乘 ， 需 要 定义 将 被 归 约 的 值 序列 。 
range(1, n+1) 
使 用 prod() 函数 的 方式 如 下 所 示 : 


>>> prod(range(1, 5+1)) 
120 


完整 的 阶乘 函数 如 下 所 示 : 


>>> def factorial(n): 
return prod(range(1, n+1)) 


一 副 52 张 扑 克 牌 的 排列 方式 的 数量 ( 即 52! 的 值 ) 如 下 所 示 : 


>>> factorial(52) 
80658175170943878571660636856403766975289505440883277824000000000000 


一 副 牌 的 洗 牌 方式 有 多 种 。 
5 张 牌 的 手 牌 有 多 少 种 可 能 性 ”使 用 阶乘 的 二 项 式 计 算 公 式 如 下 所 示 : 


32 52! 

5 ]- 5152—5)! 
>>> factorial(52)//(factorial(5)*factorial(52-5)) 
2598960 
结果 表明 ， 对 于 5 张 牌 的 手 
的 方法 。) 




















牌 ， 大 约 有 260 万 种 不 同 的 排列 。( 这 是 一 种 非常 低 效 的 计算 二 项 式 
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8.6.3 工作 原理 


假设 reduce () 函数 有 如 下 定义 : 


def reduce(function, iterable, base): 
result = base 
for item in iterable: 
result = function(result, item) 
return result 


reduce () 函数 将 从 左 向 右 迭 代 值 ， 并 在 上 一 组 值 和 迭代 集合 中 的 下 一 个 元 素 之 间 应 用 给 定 的 二 
元 函数 。 
3.8 方 介绍 了 如 何 用 折 炙 的 递归 定义 优化 上 述 的 for 语句 。 




















8.6.4 补充 知识 


在 设计 reduce () 函数 时 ， 需 要 提供 一 个 二 元 运算 符 。 定 义 必要 二 元 运算 符 的 方法 有 三 种 。 一 种 
方法 是 使 用 完整 的 函数 定义 ， 如 下 所 示 : 


def mul(a, b): 
returna*Db 


另外 还 有 两 种 方法 。 可 以 用 lampbga 对 象 替代 完整 的 函数 : 


>>> add 
>>> mul 


lambda 函数 是 一 种 匿名 函数 ， 只 有 两 个 基本 元 素 : 参数 和 返回 表达 式 。 在 1ambda 函数 中 没有 
任何 语句 ， 只 有 一 个 表达 式 。 在 本 例 中 ， 表 达 式 只 是 简单 地 使 用 所 需 的 运算 符 。 示 例如 下 : 


>>> def prod2(values): 
return reduce(lambda a, b: a*b, values, 1) 


上 述 示例 为 乘法 函数 提供 了 一 个 lambda 对 象 ， 而 没有 单独 的 函数 定义 的 开销 。 
还 可 以 从 operator 模块 中 导 人 运算 符 的 定义 : 
from operator import add, mul 

这 种 方法 适用 于 所 有 的 内 置 算术 运算 符 。 

请 注意 ， 使 用 逻辑 运算 符 AND 和 OR 的 逻辑 归 约 与 其 他 算术 归 约 有 所 不 同 。 逻 辑 运算 符 存 在 短路 
现象 : 一 旦 值 为 False， 则 and-reduce 可 以 停止 处 理 。 类 似 地 ， 一 旦 值 为 True， 则 or-reduce 可 以 停 
止 处 理 。 内 置 函 数 any() 和 all() 体 现 了 这 种 功能 ， 使 用 内 置 的 reduce () 函数 很 难 捕捉 到 短路 功能 。 

1. 最 大 值 和 最 小 值 

如 何 使 用 requce () 计算 最 大 值 或 最 小 值 ? 这 个 问题 有 点 复杂 ， 因 为 没有 可 用 的 基数 值 。 不 能 以 
0 或 1 开始 ， 因 为 这 些 值 可 能 超出 了 最 大 值 或 最 小 值 的 范围 。 

另外， 内 置 的 max() 函数 和 min () 函数 必须 对 空 序列 抛 出 一 个 异常 。 这 两 个 函数 并 不 完全 符合 
sum() 函数 和 regduce () 函数 的 工作 方式 。 

必须 使 用 如 下 函数 来 提供 预期 的 特征 集 ; 




















lambda a, b: aa + b 
lambda a, b: aa * b 
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def mymax (sequence): 
CR 
base = sequence[0] 
max_rule = lambda a, b: a if a>b else b 
reduce (max_rule, sequence, base) 
except IndexError: 
raise ValueError 


该 函数 从 序列 中 选择 第 一 个 值 作为 基数 值 ， 另 外 还 创建 了 一 个 名 为 max_rule 的 lambda 对 象 ， 
该 对 象 将 选择 两 个 参数 值 中 较 大 的 一 个 。 然 后 使 用 这 个 基数 值 和 lambda 对 象 。reduce () 函数 将 在 
非 空 集合 中 找到 最 大 值 。 该 函数 捕获 了 IndexError 异常 ， 因 此 空 集 会 抛 出 ValueError 异常 。 

本 例 展示 了 如 何 创建 一 个 更 加 复杂 的 最 小 值 或 最 大 值 函 数 ， 它 仍然 基于 内 置 的 reduce () 函数 。 
这 种 方法 的 优点 在 于 将 一 个 集合 归 约 为 单个 值 时 ， 可 以 替换 样板 代码 中 的 for 语句 。 

2. 潜在 的 滥 

请 注意 ， 折 受 (在 Python 中 称 为 reduce () ) 可 能 会 被 滥用 ， 导 致 性 能 下 降 。 因 此 ， 必 须 谨 慎 使 
用 reduce() 函数 。 特 别 是 使 运算 符 在 集合 中 折 对 应 该 是 一 个 简单 的 处 理 ， 例 如 加 法 或 乘法 。 如 果 使 
用 reduce () ， 那 么 操作 的 复杂 度 将 从 O(1) 变 为 0(n)。 
a 会 发 生 什 么 ? 在 reduce () 中 使 用 一 个 复杂 度 
为 O(n log n) 的 运算 符 将 使 整个 reduce () 的 复杂 度 变 为 O(n? log n)。 


8.7 ”组合 映射 和 归 约 转换 


本 章 中 的 其 他 实例 分 别 研究 了 映射 、 过 滤 和 归 约 操作 。 

口 8.4 节 介 绍 了 了 map () 函数 。 

口 8.5 节 介绍 了 filter() 函数 。 

口 8.6 节 介 绍 了 reduce() 函数 。 

许多 算法 涉及 函数 的 组 合 。 我 们 经 常 使 用 映射 、 过 滤 和 规约 生成 数据 的 汇总 。 男 外 ， 我 们 还 需 
了 解 使 用 迭代 器 和 生成 器 函数 的 局 限 性 。 这 种 限制 是 : 


全 迭代 器 只 能 产生 一 次 值 。 


如 果 从 一 个 生成 器 函数 和 一 个 集合 数据 创建 一 个 迭代 融 , 那么 迭代 器 将 只 会 产生 一 次 数据 ,之 后 ， 
迭代 器 似乎 是 一 个 空 序列 。 示 例如 下 : 


>>> typical iterator = iter([0, 1, 2, 3, 4]) 
>>> sum(typical iterator) 

10 

>>> sum(typical iterator) 

0 


我 们 手动 将 iter () 函数 应 用 于 一 个 字面 量 列表 对 象 ， 创 建 了 一 个 遍历 值 序列 的 迭代 器 。sum ( 
函数 第 一 次 使 用 typical_iterator 的 值 时 ,使 用 了 所 有 的 5 个 值 ,第 二 次 尝试 对 typical_iterator 
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应 用 函数 时 ， 无 值 可 用 ， 和 迭代 器 好 像 空 了 。 
这 种 一 次 性 限制 导致 了 一 些 设计 注意 事项 。 当 结合 使 用 多 种 生成 器 函数 以 及 映射 .过 滤 和 归 约 时 ， 
通常 需要 缓存 中 间 结 果 ， 以 便 对 数据 执行 多 个 归 约 。 


8.7.1 准备 工作 


8.3 市 讨论 了 一 组 需要 多 个 处 理 步骤 的 数据 ， 其 实例 使 用 生成 器 函数 合并 数据 行 ， 并 过 滤 了 一 些 
多 余 的 行 。 此 外 ,我 们 还 对 数据 应 用 了 一 些 映射 ， 将 日 期 和 时 间 转 换 为 更 有 用 的 信息 。 

本 实例 将 在 8.3 节 实 例 的 基础 上 补充 两 个 规约 ， 以 获取 一 些 均值 和 方差 信息 。 这 些 统计 数据 将 有 
助 于 更 全 面 地 了 解数 据 。 

本 实例 的 背景 信息 是 一 个 记录 大 型 帆船 燃料 消耗 的 电子 表格 ， 其 内 容 如 下 。 






















































































date engine on fuel height 





engine off fuel height 





Other notes 




















10/25/2013 08:24 29 
13:15 2 
calm seas 一 anchor solomon’s island 

10/26/2013 09:12 27 
18:25 22 





choppy 一 anchor in jackson’s creek 


初始 处 理 包括 改变 数据 的 组 织 结构 、 过 滤 标 题 行 、 计 算 某 些 有 用 值 等 一 系列 操作 。 











8.7.2 ”实战 演练 
(1) 从 目标 开始 。 本 例 预期 的 函数 如 下 。 


>>> round(sum_fuel(clean_data(row merge(log rows))), 3) 
7.0 


该 函数 说 明了 这 种 处 理 的 三 步 模式 。 这 三 个 步骤 将 定义 创建 归 约 的 各 个 部 分 的 方法 。 
Re 转换 数据 的 组 织 , 有 时 也 称 为 归 一 化 数据 。 本 例 将 使 用 一 个 名 为 *ow_merge () 的 函数 。 
有 关 该 函数 的 详细 信息 ， 请 参阅 8.3 节 。 
b. 其 次 ， 使 用 映射 和 过 滤 清 理 和 充实 数据 。 这 个 步骤 被 定义 为 clean_gata() 函数 。 
c. 最 后 , 使 用 sum_fuel () 函数 将 数据 归 约 为 一 个 总 和 。 归 约 有 各 种 形式 。 我 们 可 以 计算 平均 值 ， 
也 可 以 计算 其 他 值 的 和 。 我 们 想 要 应 用 的 归 约 有 很 多 种 。 
(2) 如 果 需 要 , 定义 数据 结构 归 一 化 函数 。 该 函数 是 一 个 生成 器 函数 。 结构 的 变化 无 法 通过 map () 










































































from ch08_r02 import row_merge 


254 第 8 章 函数 式 编程 和 反应 式 编程 














如 8.3 节 所 示 ， 该 生成 器 函数 将 航程 数据 从 每 段 航程 3 行 数 据 重 构 为 每 段 航程 一 行 数据 。 当 所 有 
3 行 的 列 都 集中 在 一 行 时 ， 就 更 容易 处 理 数 据 了 。 

(3) 定义 清洗 数据 和 充实 数据 的 函数 。 该 函数 是 一 个 由 简单 函数 构建 的 生成 器 函数 , 组 合 了 map () 
和 filter() 操 作 ， 从 源 字段 中 派生 数据 。 


def clean datal(source): 
namespace_iter = map (make_ namespace, source) 
fitered source = filter(remove_ date, namespace_iter) 
start_iter = map(start datetime, fitered source) 
end_iter = map(end datetime, start_iter) 
delta_iter = map(duration, end_iter) 
fuel_iter = map(fuel _ use, delta_iter) 
per_hour_iter = map(fuel_ per _ hour, fuel_iter) 
return per_hour_iter 


每 个 map() 或 filter () 操 作 都 涉及 一 个 转换 或 计算 数据 的 小 函数 。 

(4) 定义 用 于 清洗 和 派生 附加 数据 的 各 个 函数 。 

(5) 将 合并 的 数据 行 转换 为 SimpleNamespace。 这 样 就 可 以 使 用 名 称 来 访问 数据 了 ,如 用 start_ 
time 代替 row[11]。 


from types import SimpleNamespace 
def make namespace (row): 
ns = SimpleNamespacel( 

date = row[0], 
start_time = row[1], 
start_fuel _ height = row[2], 
engd_ time = row[4], 
end_fuel _ height = row[5], 
other_notes = row[7] 















































) 


return ns 


上 述 丽 数 从 源 数据 的 选 定 列 中 构建 了 一 个 simpleNamspace。 列 3 和 列 6 被 省 咯 了 ,因为 它们 总 
是 零 长 度 的 ,' 字 符 串 。 

(6) filter () 所 使 用 的 删除 标题 行 的 函数 如 下 所 示 。 如 果 需 要 ， 可 以 扩展 该 函数 ， 从 源 数据 中 删 
除 空 行 或 其 他 不 良 数据 。 应 当 在 处 理 过 程 中 尽早 清除 不 良 数据 。 


def remove_ date(row_ns): 
return not (row ns.date == 'date') 


(7) 将 数据 转换 成 适当 格式 。 首先 , 将 字符 串 转 换 为 日 期 。 接 下 来 的 两 个 函数 依赖 于 timestamp() 
函数 ， 该 函数 将 某 列 的 日 期 字符 串 和 另 一 列 的 时 间 字 符 串 转换 为 一 个 daatetime 实例 。 


import datetime 
def timestamp (date_ text, time text): 
date = datetime.datetime.strptime(date text, "%m/%d/%y") .date!() 
time = datetime.datetime.strptime (time text, "%I:%M:%S %p") .time!() 
timestamp = datetime.datetime.combine(date, time) 
return timestamp 


基于 datetime 库 可 以 进行 简单 的 日 期 计算 。 两 个 时 间 蕉 相 减 将 创建 一 个 timedelta 对 象 ， 
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timedelta 对 象 具 有 任意 两 个 日 期 时 间 值 之 间 的 确切 秒 数 。 
使 用 该 函数 为 航程 的 开始 时 刻 和 结束 时 刻 创建 时 间 戳 的 方法 如 下 所 示 : 


def start_datetime (row_ns): 
row_ns.start timestamp = timestamp (row_ns.date, row_ns.start_ time) 
return row_ns 
































def end_datetime (row_ns): 
row_ns.end timestamp = timestamp (row_ns.date, row_ns.end time) 
return row_ns 


这 两 个 函数 都 将 向 SimpleNamespace 添加 一 个 新 属性 ， 并 返回 命名 空间 对 象 。 因 此 这 两 个 函数 
可 以 在 一 系列 map () 操作 中 使 用 。 我 们 还 可 以 重 写 这 些 函 数 , 用 一 个 不 可 变 的 namedtuple () 替换 可 
变 的 SimpleNamespace， 并 保留 map () 操作 。 

(8) 计算 派生 时 间 数 据 。 本 例 还 可 以 计算 航程 的 持续 时 间 。 如 下 函数 必须 在 前 两 个 函数 之 后 执行 。 


def duration (row_ns): 
travel time = row_ ns.end timestamp - row ns.start_ timestamp 
row_ns.travel hours = round(travel time.total_ seconds()/60/60, 1) 
return row_ns 


该 函数 将 以 秒 为 单位 的 时 间 差 转换 为 以 小 时 为 单位 的 值 ， 精 度 为 十 分 之 一 小 时 。 比 该 精度 更 准确 
的 数据 很 可 能 是 噪声 。 出 发 时 间 和 到 达 时 间 的 误差 ( 通常 ) 至 少 为 一 分 钟 ， 这 两 个 值 依赖 于 船长 开始 
计时 的 时 刻 ， 在 某 些 情况 下 ， 他 可 能 会 估算 时 间 。 

(9) 计算 分 析 所 需 的 其 他 指标 ， 包 括 创建 转换 为 浮 点 数 的 高 度 值 。 最 终 的 计算 基于 另外 两 个 计算 
娃 四 
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def fuel_use(row_ns): 
end_height = float (row_ns.end_ fuel height) 
start_height = float (row ns.start_fuel_ height) 
row_ns.fuel_ change = start height - end _ height 
return row_ns 





def fuel_ per_hour (row_ns): 
row_ns.fuel per_ hour = row_ns.fuel_ change/row_ns.travel_hours 
return row_ns 


每 小 时 燃料 消耗 的 计算 依赖 于 前 面 所 有 的 计算 。 航 行 时 间 由 分 别 计算 的 开始 时 间 蕉 和 结束 时 间 戳 
得 出 。 


8.7.3 工作 原理 


创建 一 个 遵循 通用 模板 的 复合 操作 的 思路 如 下 。 

(1) 规范 结构 : 通常 需要 用 生成 器 函数 读 取 一 个 结构 中 的 数据 ， 并 以 不 同 的 结构 生成 数据 。 

(2) 过 滤 和 清洗 : 可 能 涉及 一 个 简单 的 过 滤器 ， 如 本 实例 所 示 。 稍 后 将 介绍 更 复杂 的 过 滤器 。 

(3) 通过 映射 或 类 定义 的 惰性 特性 派生 数据 : 具有 惰性 特性 的 类 是 反应 型 对 象 。 对 源 属性 的 任何 
更 改 都 应 导致 计算 特性 的 变化 。 
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在 某 些 情况 下 ， 我 们 可 能 希望 组 合 基本 
解码 编码 字段 。 

完成 了 前 面 的 步 又 ， 就 可 以 获得 可 用 于 各 种 分 析 的 数据 。 在 很 多 时 候 ， 分 析 数 据 需 要 使 用 归 约 操 
作 。 最 初 的 示例 计算 了 燃料 使 用 量 的 总 和 。 另 外 两 个 分 析 数 据 的 示例 如 下 所 示 : 


from statistics import * 
def avg_fuel per_ hour (iterable): 

return mean(row.fuel_ per_hour for row in iterable) 
def stdev_fuel_ per_ hour (iterable): 

return stdev(row.fuel_ per_hour for row in iterable) 


这 些 函数 将 mean () 函数 和 stdev () 函数 应 用 于 每 个 数据 行 的 fuel_per_hour 属 | 
使 用 这 些 函 数 的 示例 如 下 : 


>>> round (avg_fuel_per_hour( 
clean data(row merge(log rows))), 3) 


山中 





有 实 与 其 他 维度 的 描述 。 例如， 可 能 需要 查找 引用 数据 或 
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0.48 

我 们 首先 使 用 clean_gdata (row_merge (1og_rows) ) 清洗 和 充实 原始 数据 。 然 后 对 此 数据 应 用 
了 归 约 ， 获 得 了 感 兴趣 的 值 。 

从 计算 结果 可 知 ，30 英寸 高 的 油箱 大 约 可 供 航行 60 小 时 。 在 油箱 装 满 的 情况 下 ， 以 每 小 时 6 
里 的 速度 航行 可 以 航行 大 约 360 海里。 
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8.7.4 补充 知识 


前 面 已 经 说 明 ， 只 能 对 一 个 可 迭代 的 数据 源 执行 一 个 归 约 。 如 果 想 要 计算 多 种 平均 值 或 者 计算 均 
值 和 方差 ， 则 需要 使 用 稍微 不 同 的 模式 。 
为 了 计算 数据 的 多 个 汇总 ， 需 要 创建 一 个 可 以 反复 汇总 的 序列 对 象 。 


data = tuple(clean datal(row merge(log_rows))) 

m = avg_fuel_per_hour (data) 

S = 2*stdev_fuel_per_hour (data) 

print ("Fuel use {m: .2f} +{s: .2f}".format (m=m, s=s)) 


上 述 代码 从 经 过 清洗 和 充实 的 数据 中 创建 了 一 个 元 组 。 该 元 组 将 产生 一 个 可 迭代 的 对 象 ， 但 与 引 
成 器 函数 不 同 ， 元 组 可 以 多 次 产生 可 和 迭代 的 对 象 。 可 以 通过 使 用 元 组 对 象 来 计算 这 两 个 汇总 。 
这 种 设计 涉及 大 量 的 源 数据 转换 。 我 们 使 用 了 一 系列 映射 、 过 滤 和 归 约 操作 ， 这 提供 了 很 大 的 灵 
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活性 。 
另 一 种 方法 是 创建 一 个 类 定义 。 可 以 为 该 类 设计 惰性 特性 。 这 将 创建 一 种 体现 在 单个 代码 块 中 的 
反应 式 设 计 。 有 关 这 方面 的 示例 ， 请 参阅 6.8 节 。 
还 可 以 使 用 itertools 模块 中 的 tee () 函数 实现 这 种 处 理 。 


from itertools import tee 

datal, data2 = tee(clean datal(row merge(log_rows)), 2) 
m = avg_fuel_ per_hour (datal) 

S = 2*stdev_fuel_per_hour (data2) 

















8.8 ”实现 there exists 处 理 257 





我 们 用 tee () 从 clean_data(row_merge(1og_rows) ) 创建 了 可 迭代 输出 的 两 个 克隆 。 可 以 用 
这 两 个 克隆 来 计算 均值 和 标准 差 。 
8.7.5 延伸 阅读 


口 8.3 节 介 绍 了 组 合 映射 和 过 滤 的 方法 。 
口 6.8 节 介 绍 了 惰性 特性 。 另 外 ， 该 实例 还 介绍 了 map-reduce 处 理 的 一 些 重 要 变 体 。 








8.8 实现 there exists 处 理 


本 章 讨 论 的 处 理 模式 都 可 以 用 量词 所 有 ( for all ) 进行 总 结 。 它 是 所 有 处 理 定 义 的 隐 含 部 分 。 

口 映射 : 对 源 数 据 中 的 所 有 元 素 应 用 map 函数 。 可 以 使 用 量词 明确 这 个 处 理 过 程 : {M (x) Vx : 

EC 

口 过 滤 : 对 源 数据 中 的 所 有 元 素 应 用 filter 函数 , 保留 函数 结果 为 true 的 元 素 , 也 可 以 使 用 
量词 明确 这 个 处 理 过 程 。 如 果 函 数 已 09 为 trzue, 那么 我 们 希望 从 集合 C 得 到 所 有 值 x: fxVx: 
x ECIF(xX)}., 

口 归 约 : 对 源 数 据 中 的 所 有 元 素 ， 使 用 给 定 的 运算 符 和 基数 值 计 算 汇总 值 。 这 个 规则 是 一 个 递 






















































































C= 
天 (Co OCT CG 




















归 ， 显 然 适 用 于 源 集合 或 可 迭代 对 象 的 所 有 值 ， 尺 (C，)- 人 


我 们 用 Co 符号 表示 Python 意义 上 的 开放 区 间 ， 包括 索引 为 0 到 n-1 之 间 的 值 , 但 不 包括 索引 


的 值 。 这 意味 着 Cuo= 儿 : 在 000 范围 内 没有 元 素 。 = 
更 为 重要 的 是 C01U C1==C， 也 就 是 说 ， 当 我 们 从 范围 中 获取 最 后 一 个 元 素 时 ， 不 会 踪 漏 任何 


元 素 ， 因 为 我 们 总 是 处 理 集合 中 的 所 有 元 素 。 男 外 ， 我 们 不 会 处 理 元 素 C, | 两 次 。 属于 Co 范 
围 ， 而 是 一 个 独立 的 元 素 。 

如 何 使 用 当 第 一 个 值 匹配 某 个 判定 时 停止 的 生成 器 函数 来 编写 处 理 ? 如 何 避 免 使 用 for all， 而 使 
用 there exists 量化 逻辑 ? 


8.8.1 准备 工作 


这 里 可 能 需要 用 到 男 一 个 量 先 来 看 一 个 存在 性 测试 的 示例 。 
我 们 可 能 但 知道 一 个 绒 字 是 来 半 汪 是 全 并。 我 们 不 需要 获取 一 个 数字 的 所 有 因数 来 0 定 它 不 是 素 
数 ， 存 在 一 个 因数 就 足以 证 明了 。 
可 以 定义 一 个 素数 判定 函数 P(n)， 如 下 所 示 : 
Pl(n)=-3i:2<i<n nmodi=0 
如 果 不 存 在 一 个 能 够 整除 数字 n 的 值 i ( 值 在 2 和 nn 之 间 )， 那 么 数字 就 是 素数 。 可 以 移动 否定 
符号 -， 并 将 定义 改写 为 如 下 形式 : 


-Pln)=3i:2<i<n nmodi=0 
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如 果 存 在 一 个 能 够 整除 数字 n 的 值 i ( 值 在 2 和 之 间 )， 那 么 数字 就 是 合 数 。 我 们 不 需要 知道 
所 有 i 值 ， 存 在 一 个 满足 判定 的 i 值 就 是 够 了 。 

找到 一 个 这 样 的 数字 ， 就 可 以 提前 中 止 迭 代 。 这 可 能 需要 在 for 和 if 语句 中 添加 break 语句 。 
因为 不 会 处 理 所 有 值 ， 所 以 不 能 轻易 使 用 像 map () 、filter () 或 reduce() 这 样 的 高 阶 函 数 。 






































8.8.2 ”实战 演练 
(1) 定义 一 个 生成 器 函数 模板 。 该 函数 将 跳 过 元 素 ， 直 到 找到 所 需 的 那个 。 这 最 终 将 只 产生 一 个 
通过 判定 测试 的 值 。 
def find_ first (predicate, iterable): 
for item in iterable: 
if predicate(item): 


yield item 
break 


(2) 定义 判定 函数 。 简 单 的 1ambaa 对 象 就 可 以 达到 目的 。 此 外 ，1lambda 人 允许 使 用 一 个 绑 定 到 迭 
代 的 变量 和 一 个 没有 迭代 的 变量 。 表 达 式 如 下 。 

lambda i: n% i == 0 

我 们 依赖 于 lambda 中 的 一 个 非 局 部 值 n。 该 值 对 于 lambga 将 是 全 局 的 ， 但 对 于 整个 函数 仍然 
是 局 部 的 。 如 果 n % i 为 0, 那么 i 是 n 的 一 个 因数 ，n 不 是 素数 。 

(3) 使 用 给 定 范围 和 判定 来 应 用 函数 。 


import math 
def prime (n): 
factors = fing first( 
lambda i: n% i == 0, 
range(2, int (math.sqrt (n)+1 
return len(list(factors)) == 0 


如 果 可 迭代 对 象 factors 有 一 个 元 素 , 则 n 是 合 数 。 否则 ，factors 中 没有 值 , 就 说 明 n 是 素数 。 
实际 上 ， 不 需要 测试 2 和 nm 之 间 的 每 一 个 数字 来 判断 n 是 否 为 素数 ， 只 需要 测试 值 i 是 否 满 足 


2<i<Vn。 


8.8.3 工作 原理 
find_first() 国 数 引 入 了 break 语句 来 停止 对 可 迭代 对 象 的 处 理 。 当 for 语句 停止 时 , 生成 央 
将 到 达 函 数 的 结尾 ， 并 正常 返回 。 
使 用 该 生成 器 的 值 将 引发 StopIteration 异常 ,该 异常 意味 着 生成 髓 将 不 再 产生 值 , find_first () 
函数 抛 出 了 一 个 异常 ， 但 这 不 是 一 个 错误 。 这 只 是 表明 可 迭代 对 象 已 经 完成 了 对 输入 值 的 处 理 。 
在 本 例 中 ， 这 意味 着 以 下 两 种 情况 之 一 。 
口 如 果 已 经 产生 值 ， 则 该 值 是 n 的 因数 。 


口 如 果 没 有 产生 值 ， 那 么 n 就 是 素数 。 
及 早 从 for 语句 中 退出 这 一 小 小 的 改变 使 生成 器 函数 的 意义 发 生 了 显著 的 变化 ,一 旦 判定 函数 为 




































































六 入 





















































8.8 ”实现 there exists 处 理 259 





ttue， 生 成 器 find_first () 将 停止 处 理 ， 而 不 是 处 理 源 数据 中 的 所 有 值 。 
这 种 处 理 与 过 滤 不 同 ， 过 滤 函 数 中 所 有 源 值 都 会 被 使 用 。 当 使 用 break 语句 提前 离开 for 语句 
时 ， 可 能 无 法 处 理 某 些 源 值 。 


8.8.4 补充 知识 

在 itertools 模块 中 ， 有 一 个 替代 find_first () 的 函数 。takewhile() 函数 使 用 判定 孔 数 持 
续 从 输入 中 获取 值 。 当 判定 变 为 false 时 ， 了 函数 停 止 处 理 。 

可 以 轻松 地 将 lambda 由 lambda i: n % i == 0 更 改 为 lambda i: n $$ i != 0。 这 将 允 
和 函数 获取 不 是 因数 的 值 。 任 何 因 数值 都 将 通过 结束 takewhile () 来 停止 处 理 。 

以 测试 13 和 15 是 否 为 素数 为 例 ， 如 下 所 示 : 


>>> from itertools import takewhile 
>>> n = 13 




















ne 





>>> list(takewhile(lambda i: n%i != 0, range(2, 4))) 
[2, 3] 

>>> n = 15 

>>> list(takewhile(lambda i: n%i != 0, range(2, 4))) 


[2] 
对 于 一 个 素数 ， 所 有 测试 值 都 通过 了 takewhile() 的 判定 。 结 果 是 给 定数 字 n 的 非 因数 列表 。 
如 果 非 因数 集合 与 正在 测试 的 值 的 集合 相同 , 则 n 为 素数 。 对 于 13 的 例子 , 两 个 值 的 集合 都 是 [2，31] 。 
对 于 一 个 合 数 ， 某 些 值 通过 了 takewhile() 的 判定 。 在 本 例 中 ，2 不 是 15 的 因数 。 虽 然 3 是 一 
个 因数 ， 但 是 不 会 通过 判定 。 非 因数 集合 [2] 与 测试 值 集合 [2，3] 不 同 。 
最 终 的 函数 如 下 所 示 : 
def prime_t (n): 
tests = set(range(2, int (math.sart (n)+1))) 
non_factors = setl( 
takewhilel 


lamBda Le Tm ET 
tests 






















































































) 
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return tests == non_factors 
该 函数 将 创建 两 个 中 间 集 对 象 ，tests 和 non_factors。 如 果 所 有 测试 值 都 不 是 因数 ， 则 数字 
是 素数 。 前 面 介 绍 的 函数 只 能 基于 fing_first () 创 建 一 个 中 间 列 表 对 象 。 该 列表 最 多 只 能 有 一 个 元 
素 ， 因 此 数据 结构 非常 小 。 
itertools 模块 
itertools 模块 中 还 有 许多 可 以 简化 复杂 map-reduce 应 用 的 函数 。 
口 filterfalse(): 内 置 filter() 国 数 的 姊妹 函数 。 它 反 转 了 filtez () 函数 的 判定 逻辑 ， 拒 
绝 判定 为 true 的 元 素 。 
口 zip_longest(): 内 置 zip() 表 数 的 姊妹 函数 。 当 最 短 的 可 迭代 对 象 结 束 时 ， 内 置 zip () 也 
数 停止 合并 元 素 。zip_longest () 函数 将 提供 一 个 给 定 的 填充 值 来 填充 最 短 的 可 迭代 对 象 ， 
以 匹配 最 长 的 可 迭代 对 象 。 
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口 starmap () : 对 基本 map () 算法 的 改进 。 在 执行 map (function，iter1，iter2) 时 ， 每 个 
可 迭代 对 象 中 的 一 个 元 素 作 为 位 置 参数 提供 给 给 定 的 函数 。starmap () 期 望 可 迭代 对 象 能 够 
提供 包含 参数 值 的 元 组 。 如 下 所 示 : 















































map = starmap(function, zip(iterl, iter2)) 

其 他 函数 如 下 。 

口 accumulate() : 内 置 sum() 函数 的 变 体 。 该 函数 生成 在 达到 最 终 总 和 之 前 产生 的 每 个 部 分 的 
总 和 。 


口 chain() : 按 顺序 组 合 可 迭代 对 象 。 

口 compress () : 该 图 数 使 用 一 个 可 迭代 对 象 作 为 数据 源 , 另 一 个 可 迭代 对 象 作为 选择 器 的 来 源 。 
当选 择 器 中 的 元 素 为 true 时 ， 相 应 的 数据 元 素 将 通过 。 和 否则 ， 数 据 元 素 将 被 拒绝 。 该 函数 是 
基于 true-false 值 的 逐 项 过 滤器 。 

口 aropwhile(): 当 该 函数 的 判定 为 true 时 ， 将 拒绝 值 。 一 旦 判定 变 为 false， 将 通过 所 有 

剩余 的 值 。 参 见 takewhile()。 

口 groupby () : 该 函数 使 用 key 函数 控制 分 组 的 定义 。 上 共有 相同 键 值 的 元 素 分 组 为 单独 的 迭代 

器 。 为 了 使 结果 具有 实际 意义 ， 原 始 数据 应 先 按 键 排序 。 

口 islice(): 该 函数 就 像 一 个 切片 表达 式 ， 只 不 过 它 应 用 于 可 迭代 对 象 而 不 是 列表 。 例 如 ,使 
用 1ist[1:] 可 以 舍弃 列表 的 第 一 行使 用 islice (iterable，1) 可 以 舍弃 可 过 代 对 象 中 的 
第 一 个 元 素 。 

口 takewhile(): 当 判 定 为 true 时 ,该 函数 将 通过 值 。 一 旦 判定 变 为 false， 该 函数 将 停止 

处 理 任何 剩余 的 值 。 参 见 dropwhi le ()。 

D tee() : 将 单个 可 人 迭代 对 象 分 解 成 许多 克隆 。 然 后 可 以 单独 使 用 每 个 克隆 。 这 是 一 种 在 单个 可 

迭代 数据 源 上 执行 多 个 归 约 的 方法 。 


8.9 创建 含 函 数 


在 讨论 类 似 reduce () 、sorted()、min() 和 max() 等 函数 时 , 我 们 注意 到 经 常 有 一 些 永 久 性 的 
参数 值 。 例 如 ， 我 们 需要 多 次 编写 类 似 代码 : 

reduoe (operator nul ,wiry 1) 

在 reduce() 的 三 个 参数 中 ， 只 有 一 个 参数 一 一 要 处 理 的 可 迭代 对 象 一 一 实际 上 发 生 了 变化 。 运 
算 符 和 基数 值 参数 基本 上 固定 为 operator.mul 和 1 。 

显然 可 以 为 此 定义 一 个 全 新 的 函数 : 


def prod(iterable): 
return reduce(operator.mul, iterable, 1) 


不 过 ，Python 有 多 种 简化 这 种 模式 的 方法 ， 这 样 就 不 必 重 复 样板 语句 aef 和 return 了 。 
如 何 定 义 提前 提供 某 些 参 数 的 函数 ? 
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请 注意 ， 本 实例 的 目标 不 是 提供 默认 值 。 偏 函数 不 提供 覆盖 默认 值 的 方法 。 相 反 ， 我 们 想 创建 尽 
能 多 的 偏 函 数 ， 每 个 都 具有 预先 绑 定 的 特定 参数 。 


8.9.1 准备 工作 


某 些 统计 建 模 会 用 到 标准 分 数 , 标准 分 数 有 时 也 称 为 z 分 数 (z-score )。 标准 分 数 的 思想 是 将 原始 
测量 标准 化 为 一 个 值 ， 该 值 很 容易 与 正 态 分 布 进行 比较 ,也 很 容易 与 以 不 同 单位 测量 的 相关 数字 进行 
比较 。 


















































计算 过 程 如 下 所 示 : 
z=(x-1) /0 
其 中 x 是 原始 值 ， 4 是 总 体 均值 ，o 是 总 体 标准 差 。z 值 的 均值 为 0， 标 准 差 为 1。 因 此 ，z 分 数 特别 容 
易 使 用 。 
可 以 使 用 z 分 数 发 现 远 离 均 值 的 异常 值 。 预 计 约 99.7% 的 z 值 在 -3 和 +3 之 间 。 
可 以 定义 如 下 函数 : 


def standarize(mean, stdev, x): 
return (x-mean)/stdev 


standardize() 了 艺 数 将 从 原始 分 数 x 计 算 z 分 数 ， 该 函数 有 两 种 参数 。 

口 mean 和 stgev 的 值 基 本 上 是 固定 的 一旦 总 体 值 ,就 必须 反复 将 它们 提供 给 stangar- 
dize() 因数。 

口 x 的 值 更 多 变 。 

假设 在 一 大 块 文本 中 有 一 个 数据 样本 和 
CERtE LE 0 728504 
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我 们 定义 了 两 个 小 聘 数 来 将 该 数据 转换 成 数字 对 。 第 一 个 函数 只 是 将 每 个 文本 块 分 成 一 个 行 序 
列 ， 然 后 将 每 行 分 成 一 对 文本 项 。 

text_parse = lambda text: (r.split() for r in text.splitlines()) 

我 们 使 用 文本 块 的 splitlines () 方 法 创建 一 个 行 序列 ， 然 后 将 其 放 和 人 生成 器 函数 中 , 这样 就 可 


以 把 每 个 单独 的 行 赋值 给 zr。 使 用 r .split () 分 离 每 行 中 的 两 个 文本 块 。 
使 用 1ist (text_parse (text_1) ) 的 结果 如 下 所 示 : 
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我 们 需要 进一步 充实 这 些 数据 ,使 它们 更 有 意义 ， 还 需要 将 字符 串 转 换 为 浮 点 值 。 为 此 ,我们 将 
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从 每 个 元 素 创 建 SimpleNamespace 实例 : 


from types import SimpleNamespace 
row_build = lambda rows: (SimpleNamespace (x=float (x), y=float(y)) for x,y in rows) 


lambda 对 象 通过 将 float () 函数 应 用 于 每 行 中 的 每 个 字符 串 元 素 ,来 创建 一 个 SimpleNamespace 


实例 。 这 




















可 以 将 这 两 个 1ambaa 对 象 应 用 于 数据 来 创建 一 些 可 用 的 数据 集 。 早 些 时 候 , 我 们 展示 了 text_1。 
假设 我 们 有 第 二 个 类 似 的 数据 集 ， 将 其 赋值 给 text_2: 





data_1 
data_2 








list(row_ build(text_parse (text_1))) 
list(row_ build(text_parse (text_2) ) ) 








这 样 就 可 以 从 两 个 类 似 文 本 块 中 创建 数据 。 每 个 数据 都 包含 成 对 出 现 的 数据 点 。simple- 





























Namespac | 象 具有 两 个 属性 ，x 和 y， 它 们 会 赋值 给 每 行 数据 。 











请 注意 , 这 个 处 理 过 程 创建 了 types .SimpleNamespace 的 实例 ,在 打印 时 , 将 使 用 namespace 











类 来 显示 它们 。 由 于 这 些 对 象 都 是 可 变 对 象 ， 因 此 可 以 使 用 标准 化 的 z 分 数 更 新 它们 。 














打印 aata_1， 如 下 所 示 : 


namespace (x=10.0, y=8.04), namespace (x=8.0, y=6.95), 


namespace (x=13.0, y=7.58), 


namespace (x=5.0, 


例如 ,我 们 将 计算 x 属 


数据 ， 如 下 所 示 : 


import statistics 


y=5.68)] 




















[ul 








性 的 标准 化 值 ， 即 均值 和 标准 差 。 然 后 ， 使 用 这 些 值 标准 化 两 个 集合 中 的 











mean x = statistics.mean(item.x for item in data_1) 
stdev_ x = statistics.stdev(item.x for item in data_ 1) 


for row in data_ 1: 


Z_X = standardize (mean x, stdev_x, row.x) 


print (row, 2z_x) 


for row in data 2: 





Zz_x = standardize(mean x, stdev_x, row.x) 


print (row, 2z_x) 





和 standardize() 时 , 提供 mean_vL 和 staev_vl 值 , 可 能 会 因为 一 些 不 太 重 要 的 细 
节 而 使 算法 变 得 杂乱 。 在 一 些 复杂 的 算法 中 ， 杂 乱 会 导致 混乱 ， 而 不 是 清晰 。 








8.9.2 ”实战 演练 
了 简单 地 使 用 def 
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口 创建 lambqaa 对 象 。 











看 句 创 建 一 个 具有 参数 值 偏 序 集 的 函数 之 外 ， 还 有 男 外 两 种 创建 偏 函 数 的 


口 使 用 functools 模块 的 partial () 函数 ; 
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1. 使 用 functools .partial() 
(1) 从 functools 导入 partial 图 数 。 


from functools import partial 


(2) 使 用 partial () 创 建 一 个 对 象 。 提供 基 本 函数 ,以 及 需要 包含 的 位 置 参数 。 在 执行 偏 函数 时 ， 
必须 提供 所 有 定义 偏 函 a 

z = partial(standardize, mean x, stdev_x) 

(3) 我 们 为 前 两 个 位 置 参数 mean 和 stgev 提供 了 值 。 为 了 得 到 计算 结果 ， 必 须 提供 第 三 个 位 置 
参数 Xo 

2. 创建 lambda 对 象 

(1) 定义 绑 定 固定 参数 的 lambda 对 象 。 

lambda x: standardize(mean v1, stdev_vl1, x) 

(2) 使 用 lambga 对 象 创建 一 个 对 象 。 


z = lambda x: standardize(mean v1, stdev_vl1, x) 




































































8.9.3 工作 原理 


这 两 种 方法 都 创建 了 一 个 可 调用 对 象 ， 即 名 为 z () 的 函数 ， 它 具有 已 经 绑 定 到 前 两 个 位 置 参数 的 
mean_v1 和 stdev_v1 值 。 有 了 这 两 种 方法 ， 就 可 以 进行 以 下 处 理 : 


for row in data_ 1: 











print (row, Zz (row.x)) 
for row in data 2: 8 


print (row, Zz (row.x)) 


我 们 将 z () 函数 应 用 于 每 组 数据 。 因 为 该 函数 已 经 应 用 了 一 些 参 数 ， 所 以 使 用 起 来 很 简单 。 
还 可 以 执行 以 下 操作 ， 因 为 每 一 行 都 是 一 个 可 变 对 象 。 


for row in data_ 1: 
































row.Z = Z(row.vi1) 


for row in data 2: 


row.Z = Z(row.vi1) 
我 们 更 新 了 该 行 ， 包 括 了 一 个 新 的 属性 z， 该 属性 具有 z () 函数 的 值 。 在 复杂 的 算法 中 ， 像 这 样 
调整 行 对 象 可 能 是 一 种 有 益 的 简化 。 
创建 z () 函数 的 两 种 方法 有 很 大 的 区 别 。 
口 partial () 函数 绑 定 参数 的 实际 值 。 对 所 使 用 变量 的 任何 后 续 更 改 都 不 会 更 改 已 创建 偏 函 数 
的 定义 。 在 创建 z = = partial (standardize (mean_v1，stdev_v1)) 之 后 , 改 迹 mean_vl 
或 stdev_v1 的 值 不 会 影响 偏 孔 数 z () 
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口 1ambqda 对 象 绑 定 的 是 变量 名 ， 而 不 是 值 。 对 变量 值 的 任何 后 续 更 改 都 将 改变 1ampga 的 行为 
方式 。 在 创建 z = lambda x: standqatraize (mean_v1，staev_v1，x) 后 ， 改 变 mean_v1 
或 stdev_v1 的 值 将 改变 1ambga 对 象 z () 使 用 的 值 。 

可 以 略微 修改 1ambdaa， 让 0 


z = lambda x, m=mean_ v1, s=stdev_vl: standardize(m, s, x) 


上 述 表达 式 将 提取 mean_v1 或 stdaev_vl 的 值 来 创建 1ambqaa 对 象 的 默认 值 。 现 在 ，mean_v1 
和 stdev_v1 的 值 与 1ambqda 对 象 z () 的 操作 无 关 。 


8.9.4 补充 知识 


在 创建 偏 函 数 时 ， 可 以 提供 关键 字 参 数值 以 及 位 置 参数 值 。 大 多 数 情 况 下 这 都 没有 问题 , 但 是 在 
某 些 情况 下 会 有 问题 。 

具体 来 说 ，reduce () 苑 数 不 能 简单 地 转化 为 偏 函 数 。 这 些 参 数 的 顺序 不 是 创建 偏 函 数 的 理想 顺 
序 。reduce() 函数 具有 以 下 概念 性 定义 。 请 注意 ， 该 定义 不 是 实际 定义 ， 只 是 一 种 演示 。 


def reduce(function, iterable, initializer=None) 


如 果 这 是 实际 的 定义 ,我 们 可 以 执行 以 下 操作 : 


prod = partial (reduce(mul, initializer=1)) 


实际 上 ,我 们 不 能 这 样 做 ,因为 实际 的 reauce () 定 义 比 上 面 的 概念 性 定义 更 复杂 一 些 ,reduce () 
函数 不 允许 使 用 命名 参数 值 ， 因 此 必须 使 用 1ambqa 技术 。 


>>> from operator import mul 
>>> from functools import reduce 
>>> prod = lambda x: reduce(mul, x, 1) 


我 们 使 用 lampda 对 和 象 定义 了 一 个 只 有 一 个 参数 的 函数 prod () 函数 使 用 有 两 个 固定 
一 个 可 变 参数 的 reduce () 。 

给 定 prod() ) 的 定义 ， 就 可 以 定义 其 他 依赖 于 计算 乘积 的 函数 。 阶乘 函数 factorial 的 定义 如 下 
所 示 : 


>>> factorial = lambda x: prod(range(2,x+1)) 
>>> factorial(5) 
120 


factorial() 的 定义 依赖 于 proda() 。prod() 是 一 种 偏 函 数 ， 它 使 用 了 具有 两 个 固定 参数 值 的 
redquce() 。 我 们 使 用 这 些 定 义 创 建 了 一 个 相当 复杂 的 函数 。 

在 Python 中， 函数 是 对 象 。 函 数 可 以 作为 男 一 个 函数 的 参数 。 接受 男 一 个 函数 作为 参数 的 函数 有 
时 被 称 为 高 阶 函 数 ( 0 function )。 

类 似 地 ， 函 数 也 可 以 返 函数 对 象 。 这 意味 着 可 以 创建 这 样 一 个 函数 : 


def prepare_z(data): 
mean x = statistics.mean(item.x for item in data_1) 
stdev_ x = statistics.stdev(item.x for item in data_ 1) 
return partial (standardize, mean x, stdev_x) 
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我 们 在 一 组 (x,y) 样 本 上 定义 了 一 个 函数 。 首先 , 计算 了 每 个 样本 的 x 属性 的 均值 和 标准 差 。 然 后， 
创建 了 一 个 偏 函 数 ， 它 可 以 根据 计算 出 的 统计 信息 对 分 数 进行 标准 化 。 该 函数 的 结果 是 一 个 可 以 用 于 
数据 分 析 的 函数 : 


Z = prepare _z(data_1) 
for row in data 2: 
print (row, Zz (row.x)) 


当 执 行 prepare_z () 函数 时 , 它 返 回 了 一 个 函数 。 我们 把 这 个 函数 赋 给 了 变量 z。 该 变量 是 一 个 
可 调用 对 象 ， 即 根据 样本 均值 和 标准 差 标 准 化 分 数 的 z () 函数 。 


8.10 ”使 用 不 可 变数 据 结构 简化 复杂 算法 


有 状态 对 象 是 面向 对 象 编程 的 一 个 常见 功能 。 第 6 章 和 第 7 章 研究 了 许多 与 对 象 和 状态 相关 的 技 
术 。 面 向 对 象 设 计 的 重点 在 于 创建 改变 对 象 状态 的 方法 。 

8.3 节 、8.7 节 和 8.9 节 研 究 了 一 些 有 状态 的 函数 式 编程 技术 。 这 些 实例 使 用 了 types .Simple- 
Namespace， 因 为 这 样 能 够 创建 简单 的 有 状态 的 对 象 ， 而 且 还 具有 易于 使 用 的 属性 名 称 。 

在 大 多 数 情况 下 , 我 们 使 用 的 是 具有 定义 属性 的 Python aict 对 象 的 对 象 。 6.5 节 是 一 个 例外 , 该 
实例 中 属性 由 slots_ ”属性 定义 固定 。 

使 用 aict 对 象 存储 对 象 属性 有 以 下 几 种 影响 。 
口 可 以 简单 地 添加 和 删除 属性 。 不 仅 可 以 设置 和 获取 定义 的 属性 ， 还 可 以 创建 新 的 属性 
口 每 个 对 象 使 用 比 最 低 限度 更 大 的 内 存量 。 这 是 因为 字典 使 用 散 列 算法 来 查找 键 和 值 。 散 列 处 
理 通常 比 其 他 结构 ( 如 1ist 或 tuple ) 需要 更 多 的 内 存 。 对 于 大 量 数据 ， 这 可 能 会 成 为 一 个 

问题 。 

有 状态 的 面向 对 象 编程 的 最 重要 的 问题 在 于 , 编写 明确 的 关于 对 象 状态 变化 的 断言 有 时 可 能 是 一 
个 挑战 。 相 对 于 定义 关于 状态 变化 的 断言 , 创建 具有 一 个 可 简单 映射 到 对 象 类 型 的 状态 的 全 新 对 象 更 
容易 。 结 合 Python 的 类 型 提示 ， 有 时 可 以 创建 更 可 靠 、 更 容易 测试 的 软件 。 

在 创建 新 对 象 时 ， 可 以 明确 地 获得 数据 项 和 计算 之 间 的 关系 。mypy 项 目 提供 了 可 用 来 分 析 类 型 
提示 的 工具 ， 可 用 于 确认 复杂 算法 中 使 用 的 对 象 是 否 被 正确 地 使 用 了 。 

在 某 些 情况 下 ， 也 可 以 通过 避免 有 状态 对 象 来 减少 内 存 使 用 量 。 两 种 实现 方法 如 下 所 示 。 

口 使 用 具有 __slots_ 的 类 定义 : 请 参阅 6.5 节 。 因 为 这 些 对 象 是 可 变 的 ,所 以 可 以 使 用 新 值 更 新 
属性 。 
口 使 用 不 可 变 的 tuple 或 namedtuples: 相关 背景 信息 , 请 参阅 6.4 节 。 这 些 对 象 是 不 可 变 的 。 

可 以 创建 新 对 象 ， 但 是 不 能 改变 对 象 的 状态 。 节 省 内 存 的 开销 与 创建 新 对 象 的 额外 开销 必须 

平衡 。 

不 可 变 对 象 比 可 变 对 象 稍 快 一 些 , 但 是 , 不 可 变 对 象 更 重要 的 优势 在 于 算法 设计 。 在 某 些 情况 下 ， 
与 使 用 有 状态 对 象 的 算法 相 比 ， 编 写 从 旧 的 不 可 变 对 象 创建 新 的 不 可 变 对 象 的 函数 更 简单 ， 也 更 易于 
测试 和 调试 。 编 写 类 型 提示 将 有 助 于 这 种 处 理 。 
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8.10.1 准备 工作 


如 8.3 节 和 8.8 节 所 示 ， 生 成 器 只 能 处 理 一 次 。 如 果 需 要 多 次 处 理 生成 器 ,那么 可 迭代 的 对 象 序 
列 必须 被 转换 为 像 列表 或 元 组 这 样 完 备 的 集合 。 

本 实例 需要 进行 多 个 阶段 的 处 理 。 
口 数据 的 初始 提取 : 该 阶段 可 能 涉及 数据 库 查 询 或 读 取 .csv 文件 ， 可 以 实现 为 产生 行 或 返回 生 
成 器 函数 的 函数 。 
口 清洗 和 过 滤 数 据 : 可 能 涉及 一 系列 只 能 处 理 源 数据 一 次 的 生成 器 表达 式 。 该 阶段 经 常 实现 为 
包含 多 个 映射 和 过 滤 操 作 的 函数 。 
口 充实 数据 : 可 能 涉及 一 系列 一 次 只 处 理 一 行 数据 的 生成 右 表 达 式 。 通 常 是 一 系列 从 现 有 数据 
创建 新 的 派生 数据 的 映射 操作 。 
口 规约 或 汇总 数据 : 可 能 涉及 多 个 汇总 。 该 阶段 的 前 提 是 ， 充 实数 据 阶段 的 输出 必须 是 一 个 可 

































































以 多 次 处 理 的 集合 对 象 。 
在 某 些 情况 下 ， 充 实 和 汇总 处 理 可 能 会 有 交叉 。 如 8.9 节 所 示 ， 我 们 会 先 做 一 些 汇总 ， 然 后 再 充 
充实 数据 阶段 有 两 种 常用 策略 。 


口 可 变 对 象 : 这 意味 着 充实 过 程 可 以 添加 或 设置 属性 值 。 为 此 ， 可 以 在 设置 属性 时 进行 及 早 计 
算 , 请 参阅 6.9 节 , 也 可 以 用 惰性 特性 来 完成 , 请 参阅 6.8 节 。 我 们 展示 了 使 用 types .Simple- 
Namespace 在 与 类 定义 分 开 的 函数 中 完成 计算 的 示例 。 

口 不 可 变 对 象 : 这 意味 着 充实 过 程 从 旧 对 象 创建 新 对 象 。 不 可 变 对 象 是 由 tuple 派生 的 或 者 由 
namedtuple() 创建 的 类 型 。 不 可 变 对 象 的 优点 在 于 非常 小 且 非 常 快 。 另 外 , 由 于 没有 内 部 状 
态 变化 ， 它 们 非常 简单 。 
















































































假设 在 一 大 块 文本 中 有 一 个 数据 样本 集合 : 
text 1 = '''10 8.04 

8 6.95 

13 7.58 

5 5.68 





我 们 的 目标 是 创建 一 个 包括 get 、cleanse 和 enrich 操作 的 三 步 处 理 过 程 : 


data = list(enrich(cleanse(get (text)))) 


get () 函数 获取 源 数据 ， 在 本 例 中 它 将 解析 大 块 文本 。cleanse () 函数 将 删除 空 行 和 其 他 无 用 的 
数据 。enrich () 函数 将 对 清洗 过 的 数据 进行 最 终 的 计算 。 我 们 将 分 别 讨论 这 个 处 理 过 程 的 每 个 阶段 。 
get () 函数 仅 限于 纯 文 本 人 处理， 尽量 少 做 过 滤 : 


from typing import * 





























def get (text: str) -> Iterator[List[lstr]]: 
for line in text.splitlines(): 
if len(line) == 0: 
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Continue 
yield 1ine.sp1Lit() 


， 号 类 型 提示 ， 导 入 了 typing 模块 。 于 是 我 们 可 以 对 函数 的 输入 和 输出 做 出 显 式 的 声明 。 
get () 函数 接受 一 个 字符 串 str。 人 List [stz] 结 构 。 每 行 输入 都 被 分 解 为 一 个 值 序列 。 

a s 行 。 这 里 有 一 个 小 的 过 滤 特 征 ， 但 涉及 数据 序列 化 的 一 个 小 技术 问 
题 ， 而 不 是 特定 于 应 用 程序 的 过 滤 规 则 。 

cleanse() 函数 将 生成 命名 的 数据 元 组 。 该 函数 将 应 用 一 些 规则 来 确保 数据 有 效 : 


from collections import namedtuple 


















































DataPair = namedtuple('DatapPair', ['x', 'y']) 
def cleanse(iterable: Iterable[List[str]]) -> Iterator[DatapPair]: 
for text_items in iterable: 
CE 


x_amount = float (text_items[0]) 
y_amount = float (text_items[1]) 
yield DatapPair (x_amount, y_amount) 
except Exception as ex: 
print (ex, repr (text_items)) 
我 们 定义 了 一 个 名 为 DataPair 的 namedtuple。 该 元 组 有 两 个 属性 ，x 和 yy。 如 果 两 个 文本 值 
可 以 正确 地 转换 为 float, 那么 这 个 生成 器 将 产生 一 个 有 用 的 DataPair 实例 。 如 果 这 两 个 文本 值 无 
法 转换 ， 则 会 显示 错误 。 
请 注意 , 这 种 精妙 的 技术 是 mypy 项 目的 类 型 提示 的 一 部 分 。 包 含 yielad 语句 的 函数 就 是 迭代 器 ， 
可 以 像 可 迭代 对 象 一 样 使 用 ， 因 为 迭代 器 就 是 一 种 可 迭代 对 象 。 
我 们 可 以 在 这 里 应 用 附加 的 清洗 规则 。 例 如 ,可 以 在 try 语句 中 添加 assert 语句 。 任何 由 于 非 
预期 或 无 效 数 据 引起 的 异常 都 将 停止 处 理 给 定 的 输入 行 。 
初始 cleanse() 和 get () 处 理 的 结果 如 下 所 示 : 


list(cleanse(get (text))) 
The output looks like this: 
[DataPair (x=10.0, y=8.04), 
Datapaike (=..0 Y=60%95).; 
Databarr(x=L3 0 T=); 



















































































DatapPair (x=5.0, y=5.68)] 


本 例 将 按 每 对 数据 的 y 值 排序 。 首 先 需 要 对 数据 排序 ， 然 后 使 用 附加 属性 值 y( 排列 顺序 ) 生成 
排序 后 的 值 。 





8.10.2 ”实战 演练 


(1) 定义 充实 后 的 namedtuple。 


RankYDatapPair = namedtuple('RankYDatapPair', ['y_rank', 'pair']) 
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请 注意 ,我 们 已 将 原始 数据 对 作为 数据 项 包含 在 了 新 的 数据 结构 中 。 因 为 不 想 复制 各 个 字段 ， 所 
以 把 原始 对 象 整个 包含 进来 了 。 
(2) 定义 充实 函数 。 


PairIiter = Iterable[DataPair] 
RankPairIter = Iterator[RankYDatapPair] 





def rank by_y(iterable:PairIter) -> RankPairIter: 

为 了 清楚 地 说 明 该 函数 接受 的 类 型 和 返回 的 类 型 ,我 们 添加 了 类 型 提示 。 我 们 分 别 定义 了 类 型 提 
示 ， 以 使 它们 更 简短 ， 这 样 就 可 以 在 其 他 函数 中 重用 了 。 

(3) 编写 充实 函数 的 函数 体 。 在 本 例 中 ， 因 为 要 排序 ， 所 以 需要 有 序数 据 ， 我 们 将 使 用 原始 y 属 
性 。 由 于 从 旧 对 象 创建 了 新 对 象 ， 因 此 该 函数 可 以 生成 RankYDataPair 实例 。 


all_data = sorted(iterable, key=lambda pair:pair.y) 
for y_rank, pair in enumerate(all data, start=1): 
yield RankYDataPair(y_rank, pair) 


使 用 enumerate () 为 每 个 值 创 建 排序 编号 。 默 认 起 始 值 为 1 便于 进行 某 些 统计 处 理 。 在 其 他 情 
况 下 ， 默 认 起 始 值 为 0 更 好 。 
整个 函数 如 下 所 示 : 


def rank_ by_y(iterable: Pairiter) -> RankPpairIter: 
all_data = sorted(iterable, key=lambda pair:pair.y) 
for y_rank, pair in enumerate(all data, start=1): 
yield RankYDatapPair(y_rank, pair) 


我 们 可 以 在 一 个 更 长 的 表达 式 中 用 此 来 获取 并 清洗 数据 ， 然 后 再 进行 排序 。 使 用 类 型 提示 比 包含 
有 状态 对 象 的 替代 方法 更 清晰 。 在 某 些 情况 下 ， 其 有 助 于 改进 代码 的 清晰 度 。 
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8.10.3 工作 原理 


rank_by_y () 国 数 的 结果 是 包含 原始 对 象 和 充实 后 结果 的 新 对 象 。 使 用 生成 器 序列 rank_by_ 
y() 、cleanse() 和 get () 的 示例 如 下 : 


>>> data = rank by y(cleanse(get(text_1) )) 

>>> pprint (list (data)) 

[RankYDataPair(y rank=1, pair=DataPair(x=4.0, y=4.26)), 
RankYDataPair(y rank=2, pair=DataPair(x=7.0, y=4.82)), 
RankYDataPair(y rank=3, pair=DataPair(x=5.0, y=5.68)), 











RankYDataPair(y rank=11, pair=DataPair(x=12.0, y=10.84))] 


数据 按照 y 值 升序 排列 。 现 在 可 以 使 用 这 些 充实 过 的 数据 值 做 进一步 的 分 析 和 计算 。 
在 许多 情况 下 ， 创 建新 对 象 可 能 比 改 变 对 象 状 态 更 能 体现 该 算法 。 当 然 ， 这 通常 只 是 主观 判断 。 
当 创建 新 对 象 时 ，Python 类 型 提示 最 有 效 。 因 此 ， 这 种 技术 可 以 提供 有 力 的 证 据 , 证明 复杂 的 算 
法 是 正确 的 。 使 用 mypy 证 不 可 变 对 象 更 具 吸 引力 。 
最 后 ， 在 使 用 不 可 变 对 象 时 ， 有 时 会 提高 效率 。 这 依赖 于 Python 的 三 个 特性 之 间 的 平衡 。 
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口 元 组 是 小 型 数据 结构 ， 使 用 它们 可 以 提高 性 能 。 
口 Python 对 象 之 间 的 任何 关系 都 涉及 创建 对 象 引 用 ， 这 种 数据 结构 也 很 小 。 许 多 相关 的 不 可 变 
对 象 可 能 比 可 变 对 象 更 小 。 
口 创建 对 象 的 开销 会 很 大 ， 创 建 过 多 不 可 变 对 象 得 不 偿 失 。 

前 两 个 特性 节省 的 内 存 必须 与 第 三 个 特性 的 处 理 开 销 平 衡 。 当 数据 量 过 大 ， 限 制 了 处 理 速度 时 ， 
节省 内 存 可 以 提高 性 能 。 

对 于 本 例 ， 由 于 数据 量 非常 小 ,与 通过 减少 内 存 使 用 量 节 省 的 开销 相 比 ， 创 建 对 象 的 开销 要 大 得 
多 。 对 于 较 大 的 数据 集 ， 创 建 对 象 的 开销 可 能 会 小 于 内 存 不 足 的 开销 。 


8.10.4 补充 知识 


本 实例 中 的 get () 函数 和 cleanse () 函数 使 用 了 类 似 的 数据 结构 :Iterable[List[str]] 和 
Iterator[List[str]]。 在 collections.abc 模块 中 ，Iterable 是 通用 的 定义 ，Iterator 是 
Iterable 的 一 个 特例 。 

本 书 使 用 的 mypy 版 本 mypy 0.2.0**-dev 非常 特别 ， 它 将 使 用 yielq 语句 的 函数 定义 为 
Iterator。 未 来 的 版 本 可 能 会 放松 对 子 类 关系 的 严格 检查 ， 从 而 可 以 对 这 两 种 情况 使 用 同一 个 定义 。 

typing 模块 包含 namedtuple () 函数 的 蔡 代 实现 : NamedTuple () 。 这 个 类 型 定义 可 以 指定 元 
组 内 各 种 元 素 的 数据 类 型 。 如 下 所 示 : 


DataPair = NamedTuple('DatapPair', [ 
人 GE 
人 Si 












































] 
) 





























定义 使 用 一 个 两 元 组 的 列表 ， 而 不 是 名 称 列表 。 两 元 组 包含 一 个 名 称 和 一 个 类 型 定义 。 

mypy 用 这 个 补充 的 类 型 定义 来 确定 NamedTuple 对 象 是 否 正确 填充 了 。 其 他 人 也 可 以 用 它 来 理 
解 代 码 并 进行 适当 的 修改 或 扩展 。 

在 Python 中 ， 可 以 使 用 不 可 变 对 象 蔡 换 一 些 有 状态 对 象 ， 不 过 存在 一 些 限 制 。 集 合 (如 1ist、 
set 和 dict ) 必须 保持 为 可 变 对 象 。 用 不 可 变 的 单 体 ( monad ) 替换 这 些 集合 在 其 他 编程 语言 中 行 得 
通 ， 但 是 Python 不 支持 。 
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许多 算法 可 以 巧妙 地 表达 为 递归 。3.8 节 讨 论 了 一 些 可 以 进一步 优化 以 减少 函数 调用 次 数 的 递归 

































































有 些 数据 结构 也 涉及 递归 ， 尤 其 是 JSON 文档 ( 以 及 XML 和 HTML 文档 ) 可 以 具有 递归 结构 。 
JSON 文档 可 能 会 包含 铝 套 的 复杂 对 象 。 

在 许多 情况 下 ， 使 用 生成 器 处 理 这 些 结构 具有 很 多 优势 。 如 何 编写 用 于 递归 的 生成 器 ? 为 何 使 用 
yield fronm 语句 可 以 避免 编写 额外 的 循环 ? 

















我 们 使 用 typing.NamedTuple() 和 collection.namedtuple() 的 方式 几乎 完全 一 样 。 属 性 8 
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8.11.1 准备 工作 


本 实例 将 研究 一 种 在 复杂 数据 结构 中 搜索 有 序 集合 以 查找 所 有 匹配 值 的 方法 。 在 使 用 复杂 JSON 
文档 时 ， 通 常 将 它们 建 模 为 dict-of-dict 和 dict-of-list 结构 。 当 然 ，JSON 文档 的 结构 不 是 只 有 两 层 ， 
dict-of-dict 其 实 代 表 dict-of-dict-of...。 同 样 ，dict-of-list 其 实 代表 dict-of-list-of...。 这 些 结构 都 是 递归 结 
构 ， 这 意味 着 搜索 时 必须 遍历 整个 结构 以 查找 一 个 特定 的 键 或 值 。 

具有 这 种 复杂 结构 的 文档 如 下 所 示 : 









































document = { 
"field": "valuel", 
"field2": "value", 
hi 
{"array_item keyl": "value"}, 
{"array_item key2": "array_item value2"} 
J 
"object": { 
"attributel": "value", 
"attribute2": "value2" 


} 
该 文档 有 4 个 键 : field、fiel92、array 和 object。 每 一 个 键 的 数据 结构 都 与 其 相关 联 的 值 不 同 。 
某 些 值 是 唯一 的 ， 某 些 值 则 是 重复 的 。 这 种 重复 性 就 是 必须 搜索 整个 文档 找到 所 有 实例 的 原因 。 
本 实例 的 核心 算法 是 深度 优先 搜索 。 该 函数 的 输出 将 是 标识 目标 值 的 路 径 列表 。 每 个 路 径 将 是 一 
个 字段 名 称 序列 ， 或 者 字段 名 称 与 索引 位 置 混合 的 序列 。 
在 前 面 的 示例 文档 中 ， 值 value 出 现在 3 个 地 方 。 
口 ["artay"，0，"artay_item_ key1"]: 该 路 径 从 名 为 array 的 顶级 字段 开始 ， 然 后 访问 
列表 的 第 零 项 ， 再 访问 名 为 array_item_key1 的 字段 。 
口 ["field2"]: 该 路 径 只 有 一 个 字段 名 称 ， 该 字段 的 值 为 目标 值 。 
口 ["object"，"attributel"]: 该 路 径 从 名 为 objec 的 顶级 字段 开始 ， 然 后 访问 该 字段 的 
子 字 段 attributel。 
在 整个 文档 中 搜索 目标 值 时 ，find_path () 图 数 将 产生 这 两 个 路 径 。 搜 索 函 数 的 概念 性 定义 如 
下 所 示 : 


def fingd path(value, node, path=[]): 
if isinstance (node, dict): 
for key in node.keys(): 
# fingd path(value, node[key], path+[key]) 
# 产生 多 个 值 
elif isinstance(node, list): 
for index in range(len (node)): 
# fingd path(value, node[index], path+[index]) 



























































# 产生 多 个 值 
else: 
# 基本 数据 类 型 值 
if node == value: 


yield path 
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fing_path() 人 处 理 有 三 种 选择 。 


口 当 节 点 是 字典 时 ， 必 须 检查 每 个 键 的 值 。 由 于 这 些 值 可 能 是 任何 类 型 的 数据 ， 因 此 将 对 每 个 
值 递归 使 用 find_patph () 函数 。 最 终 产 生 一 个 匹配 序列 。 

口 如 果 节 点 是 列表 ， 则 必须 检查 每 个 索引 位 置 的 元 素 。 由 于 这 些 元 素 可 能 是 任何 类 型 的 数据 ， 

因此 将 对 每 个 值 递归 使 用 finq_path () 函数 。 最 终 产 生 一 个 匹配 序列 。 

口 另 一 个 选择 是 节点 为 基本 数据 类 型 值 。JSON 规范 列 出 了 有 效 文档 中 可 能 存在 的 许多 基本 数据 

类 型 。 如 果 闻 点 值 就 是 目标 值 ， 那 么 就 找到 了 一 个 实例 ， 并 且 可 以 产生 这 个 单独 的 匹配 值 。 

处 理 弟 归 的 方法 有 两 种 。 一 种 方法 如 下 所 示 : 


for match in find path(value, 
yield match 

































































node[key], path+[key]): 





对 于 这 样 简单 的 问题 来 说 ， 这 种 方法 似乎 太 刻 板 。 另 一 种 方法 更 简单 、 更 清晰 一 些 。 
8.11.2 ”实战 演练 


(1) 编写 完整 的 for 语句 。 


for match in find path(value, 


node[key], path+[key]): 
yield match 





为 了 便于 调试 ， 可 能 会 在 for 语句 的 循环 体 中 插入 一 个 print () 函数 。 
(2) 在 确定 上 述 语句 能 够 正常 运行 之 后 , 用 yiela from 语句 赫 换 它 。 


yield from find path(value, node[lkey], path+[key]) 


完整 的 深度 优先 搜索 函数 find_path () 如 下 所 示 : 


def fingd path(value, node, path=[]): 
if isinstance(node, dict): 
for key in node.keys(): 
yield from find path(value, 


node[key], path+[key]) 
elif isinstance(node, list): 
for index in range(len(node)): 


yield from find path(value, node[index], path+[index]) 
else: 
if node == value: 


yield Path 


使 用 fing_patn () 函数 的 示例 如 下 : 














>>> list(find path('array_ item value2', document)) 
[['array', 1, 'array_item key2']] 


find_path () 图 数 是 可 迭代 的 , 可 以 产生 许多 值 。 我 们 使 


列表 有 一 个 元 素 ['array'，1，'array_item_key2'] ， 该 元 素 具 有 匹配 元 素 的 路 径 。 


然后 ， 可 以 使 用 document['array'][1]['array_item_key2'] 找 到 目标 值 。 


在 查找 不 唯一 的 值 时 ， 结 果 列 表 可 能 会 如 下 所 示 : 























所 有 结果 创建 了 一 个 列表 。 在 本 例 中 ， 
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>>> list(find path('value', document)) 
[['array', 0, 'array_item key1']， 
['field2'], 
['object', 'attributel1l']] 


此 结果 列表 有 三 个 元 素 ， 每 个 元 素 都 提供 了 一 个 具有 目标 值 value 的 数据 项 的 路 径 。 
8.11.3 ”工作 原理 


yield from X 语句 是 如 下 语句 的 简写 : 


for item in xX: 
yield item 


使 用 yield from X 语句 可 以 编写 简洁 的 递归 算法 ， 该 算法 可 用 作 和 迭代 器 ， 并 正确 生成 许多 值 。 
该 语句 也 可 以 在 不 涉及 递归 函数 的 情景 中 使 用 。 在 涉及 可 迭代 结果 的 情况 下 使 用 yiela from 语 
名 是 非常 明智 的 。 上 述 代码 是 递归 函数 的 一 种 简化 形式 ， 因 为 它 保留 了 一 个 清晰 的 递归 结构 。 










































































8.11.4 补充 知识 

另 一 种 常见 的 定义 风格 是 使 用 追加 操作 来 构建 列表 。 我 们 可 以 将 其 重 写 为 迭代 器 ， 避 人 免 构 建 列表 
对 象 的 开销 。 

在 分 解数 字 的 因数 时 ， 可 以 定义 素数 因数 集 ， 如 下 所 示 : 


旭 x 是 素数 
Our 人 /是 x 的 一 个 因数 





























F(x)= 





























如 果 值 x 是 素数 ,那么 只 有 它 自 己 在 素数 因数 集中 。 否 则 ， 必 然 存在 x 的 最 小 因数 一 一 素数 n。 我 们 
可 以 构建 一 个 以 为 起 点 的 因数 集 ， 包 括 x/n 的 所 有 因数 。 为 了 确保 只 找到 素数 因数 ，n 必须 是 素数 。 
如 果 按 升序 搜索 ， 那 么 我 们 将 在 找到 合 数 因数 之 前 找到 素数 因数 。 

在 Python 中 , 该 算法 有 两 种 实现 方法 : 一 种 方法 是 构建 列表 , 另 一 种 方法 是 生成 因数 。 构 建 列表 
的 函数 如 下 所 示 : 


import math 
def factor_list (x): 
limit = int (math.sgrt (x)+1) 
for n in range(2, limit): 
q, rr = divmod(x, n) 
fs Os 
return [nl + factor_list(q) 
return [x] 


factor_1ist () 函数 将 搜索 所 有 数字 n，2 < n< Vx 。x 的 第 一 个 因数 将 是 它 的 最 小 因数 ， 也 将 是 
素数 。 当 然 ， 我 们 也 会 浪费 时 间 去 搜索 一 些 合 数 。 例 如 ， 在 测试 了 2 和 3 之 后 ， 还 将 测试 4 和 6， 即 
使 它们 是 合 数 而 且 已 测试 了 它们 的 所 有 因数 。 

factor_1list () 函数 构建 了 一 个 1ist 对 象 。 如 果 找到 一 个 因数 n， 那 么 它 将 创建 一 个 包含 该 因 
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数 的 列表 ， 然 后 从 x // n 追加 因数 。 如 果 没 有 找到 x 的 因数 ， 那 么 这 个 值 就 是 素数 ， 我 们 将 返回 一 
个 仅 有 该 值 的 列表 。 
可 以 使 用 yield from 语句 百代 递归 调用 ,将 该 函数 重 写 为 迭代 器。 重 写 后 的 函数 如 下 所 示 : 


def factor_iter (X) : 
limit = int (math.sqrt (x)+1) 
for n in range(2, limit): 
gy = drvmGd (wy Wm) 











二 ES 
yield n 
yield from factor_iter(q) 
return 
yield x 








与 构建 列表 版 本 一 样 ， 该 函数 将 搜索 数字 n。 当 找到 一 个 因数 时 ， 该 函数 将 产生 因数 ， 随 后 通过 
递归 调用 factor_iter () 找 到 其 他 因数 。 如 果 没 有 找到 任何 因数 ， 那 么 该 函数 只 会 产生 该 素数 。 

由 于 使 用 了 和 迭代 器 , 因此 可 以 根据 这 些 因数 构建 任意 类 型 的 集合 。 可 以 使 用 collection.Counter 
类 创建 一 个 多 重 集 ， 而 不 总 是 创建 一 个 列表 。 如 下 所 示 : 


>>> from collections import Counter 
>>> Counter(factor iter(384)) 
Counter({2: 7, 3: 1}) 
































结果 表明 : 
384=2 x3 
在 某 些 情况 下 ， 这 种 多 重 集 比 因数 列表 更 容易 使 用 。 





8.11.5 ”延伸 阅读 
口 3.8 节 介绍 了 递归 函数 的 核心 设计 模式 。 该 实例 提供 了 创建 结果 的 另 一 种 方法 。 























输入 /输出 、 物 理 格式 和 远 辑 
布局 








本 章 主要 介绍 以 下 实例 。 

口 使 用 pathlib 模块 处 理 文件 名 

口 使 用 上 下 文 管理 器 读 取 和 写 和 人 文件 
口 替换 文件 ， 同 时 保留 以 前 的 版 本 

口 使 用 CSV 模块 读 取 带 分 隔 符 的 文件 
口 使 用 正则 表达 式 读 取 复 杂 格 式 

口 读 取 JSON 文档 
口 读 取 XML 文档 
口 读 取 HTML 文档 
口 将 CSV 模块 的 DictReader 更 新 为 namedtuple 读 取 器 
口 将 CSV 模块 的 DictReagder 更 新 为 namespace 读 取 器 
口 使 用 多 个 上 下 文 读 取 和 写 和 人 文件 







































































9.1 引言 


术语 文件 ( file ) 有 多 种 含义 。 




















口 操作 系统 ( OS ) 使 用 文件 作为 组 织 数据 字 节 的 一 种 方式 。 字 节 可 能 代表 图 像 、 声 音 样 本 、 单 
词 ， 甚 至 可 执行 程序 。 所 有 不 同类 型 的 内 容 都 被 简化 为 字 节 序列 。 应 用 软件 使 字 节 具有 实际 




















常见 的 操作 系统 文件 有 两 种 。 

虽 块 文件 存在 于 磁盘 、 国 态 硬 盘 (SSD ) 等 设备 上 。 这 种 文件 可 以 按 字 节 块 读 取 。 操 作 系 统 可 
以 在 任意 时 间 搜 索 文件 中 的 特定 字 节 。 

和 字符 文件 是 一 种 管理 设备 的 方法 ， 比 如 网 络 连接 , 或 者 连接 到 计算 机 的 键盘 。 这 种 文件 被 视 
为 许多 单个 字 节 组 成 的 流 , 这 些 字 节 在 看 似 随机 的 时 间 点 到 达 。 在 字 节 流 中 无 法 向 前 或 向 后 
查找 。 
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口 文件 这 个 词 还 定义 了 Python 运行 时 (Python runtime ) 使 用 的 数据 结构 。Python 文件 抽象 封装 
了 各 种 操作 系统 文件 实现 。 当 打开 一 个 文件 时 ， 在 Python 抽象 、 操 作 系 统 实现 和 磁盘 或 其 他 
设备 上 的 底层 字 节 集合 之 间 有 一 个 绑 定 。 
口 文件 也 可 以 解释 为 Python 对 象 的 集合 。 从 这 个 角度 来 看 ,文件 的 字 节 表示 Python 对 象 ， 如 字 
符 串 或 数 。 文 本 字符 串 文 件 很 常见 ， 也 很 容易 使 用 。Unicode 字符 通常 通过 UTF-8 编码 方案 编 
码 为 字 节 , 但 是 还 有 很 多 替代 方案 。Python 提供 了 诸如 shelve 和 pickle 之 类 的 模块 , 将 更 
复杂 的 Python 对 象 编码 为 字 市 。 
通常 ， 我 们 会 讨论 对 象 序列 化 的 方法 。 把 对 象 写 人 文件 时 ，Python 对 象 的 状态 信息 被 转换 成 一 系 
列 字 节 。 反 序列 化 是 从 字 节 中 恢复 Python 对 象 的 反 向 过 程 , 也 可 以 称 之 为 状态 表示 ,因为 我 们 通常 会 
将 每 个 单独 对 象 的 状态 与 类 定义 分 离开 来 序列 化 。 
在 处 理 来 自 文件 的 数据 时 ， 通 常 需要 做 两 个 区 分 。 
口 数据 的 物理 格式 : 这 个 概念 说 明了 什么 Python 数据 结构 是 由 文件 中 的 字 节 来 编码 的 基本 问题 。 
字 节 可 能 是 Unicode 文本 。 文 本 可 以 表示 为 逗号 分 隔 值 (CSV ) 文档 或 JSON 文档 。 物 理 格式 
通常 由 Python 库 来 处 理 。 
口 数据 的 逻辑 布局 : 布局 关注 数据 中 各 种 CSV 列 或 JSON 字段 的 详细 信息 。 在 某 些 情况 下 ， 列 
可 能 被 标记 过 ， 或 者 可 能 存在 必须 通过 位 置 来 解释 的 数据 。 导 辑 布局 通常 由 我 们 的 应 用 程序 
来 处 理 。 
物理 格式 和 逻辑 布局 都 是 解释 文件 数据 的 关键 。 我 们 将 介绍 一 些 使 用 不 同 物理 格式 的 实例 ,还 将 
介绍 如 何 从 导 辑 布局 的 某 些 方面 分 离 程序 。 


9.2 使 用 pathlib 模块 处 理 文件 名 


大 多 数 操作 系统 使 用 分 层 路 径 来 标识 文件 。 文 件 名 的 示例 如 下 所 示 : 
/Users/slott/Documents/Writing/Python Cookbook/code 
这 个 完整 的 路 径 名 有 具有 以 下 元 素 。 
口 最 前 面 的 /意味 着 这 个 路 径 名 是 绝对 路 径 ， 从 文件 系统 的 根 目 录 开 始 。 在 Windows 中 ， 路 径 名 
称 前 面 还 有 一 个 额外 的 字母 来 区 分 每 个 单独 存储 设备 上 的 文件 系统 , 例如 C:。Linux 和 MacOS 
X 将 所 有 设备 视 为 一 个 单一 的 大 型 文件 系统 。 
口 Users 、slott、Documents 、Writing 、Python Cookbook 和 code 等 名 称 代 表 文 件 系统 的 目录 (或 
文件 夹 )。 文件 系统 中 必须 有 一 个 顶级 Users 目录 ， 该 目录 必须 包含 slott 子 目录 ， 以 此 类 推 ， 
路 径 中 的 每 个 名 称 都 是 如 此 。 
口 在 Windows 中 ,操作 系统 使 用 \ 分 隔 路 径 中 的 各 个 项 。Python 则 使 用 /分 隔 路 径 。Python 标准 
的 分 隔 符 / 可 以 优雅 地 转换 为 Windows 路 径 分 隔 符 ,一般 可 以 忽略 Windows 的 \ 分 隔 符 。 
我 们 无 法 知道 名 称 code 代表 什么 样 的 对 象 。 文 件 系统 对 象 分 为 很 多 种 。code 可 能 是 命名 其 他 文 
件 的 目录 ， 也 可 能 是 一 个 普通 的 数据 文件 ， 还 可 能 是 一 个 面向 流 的 设备 的 链接 。 附 加 的 目录 信息 可 以 
显示 文件 系统 对 象 的 种 类 。 
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不 以 /开始 的 路 径 是 相对 于 当前 工作 目录 的 路 径 。 在 Mac OS X 和 Linux 中 ，ca 命令 用 于 设置 当 
前 工作 目录 。 在 Windows 中 ，chaizr 命令 用 于 设置 当前 工作 目录 。 当 前 工作 目录 是 操作 系统 登录 会 
话 的 一 个 功能 ， 可 以 通过 shell 显示 。 

如 何以 不 限于 特定 操作 系统 的 方式 来 处 理 路 径 名 ? 如 何 简化 各 操作 系统 的 通用 操作 , 使 其 尽 可 能 
统一 ? 


9.2.1 准备 工作 


区 分 两 个 概念 非常 重要 : 

口 标识 文件 的 路 径 ; 

口 文件 的 内 容 。 

路 径 提 供 了 可 选 的 目录 名 称 序列 和 最 终 的 文件 名 。 路 径 可 以 通过 文件 扩展 名 提供 一 些 文件 内 容 信 
息 。 目 录 包 括 文件 的 名 称 、 创 建 时 间 、 所 有 者 、 权 限 、 大 小 以 及 其 他 详细 信息 。 文 件 的 内 容 与 目录 信 
息 和 名 称 是 分 离 的 。 

文件 名 通常 具有 一 个 可 以 提示 文件 物理 格式 的 后 级 。 以 .csv 结尾 的 文件 很 可 能 是 可 以 解释 为 数据 
行 和 列 的 文本 文件 。 文 件 名 和 物理 格式 之 间 的 绑 定 并 不 是 绝对 的 。 文 件 后 缀 只 是 一 个 提示 ， 而 且 有 可 
能 是 错误 的 。 

一 个 文件 的 内 容 可 能 有 多 个 名 称 。 多 个 路 径 可 以 链接 到 同一 个 文件 。 使 用 link ( 1n ) 命令 可 以 创 
建 为 文件 内 容 提 供 额 外 名 称 的 目录 和 条目。 在 Windows 中 ,可 以 使 用 mklink 。 这 种 方式 被 称 为 硬 链接 
( hard link )， 因 为 它 是 名 称 和 内 容 之 间 的 低级 连接 。 

除了 硬 链接 ， 还 有 软 链接 (soft link ) 或 符号 链接 ( symbolic link ) [ 亦 称 连 接点 (junction point ) ] 
这 一 概念 。 软 链接 是 一 种 不 同类 型 的 文件 ， 可 以 很 容易 地 将 其 看 作对 另 一 个 文件 的 引用 。 操 作 系 统 
的 GUI 显示 可 能 会 将 其 显示 为 一 个 不 同 的 图 标 ， 并 称 其 为 别名 (alias ) 或 快捷 方式 〈shortcut ) 来 
予以 说 明 。 

在 Python 中 ，pathlib 模块 可 以 实现 所 有 与 路 径 相关 的 处 理 。 该 模块 对 路 径 进 行 了 以 下 两 种 
口 不 确定 是 否 引 用 实际 文件 的 纯 路 径 ; 

口 可 以 解析 并 引用 一 个 实际 文件 的 具体 路 径 。 

这 种 区 分 使 我 们 能 够 为 应 用 程序 可 能 创建 或 引用 的 文件 创建 纯 路 径 。 我 们 还 可 以 为 操作 系统 上 实 
际 存在 的 文件 创建 具体 路 径 。 应 用 程序 可 以 通过 解析 纯 路 径 来 创建 具体 路 径 。 

pathlib 模块 还 区 分 了 Linux 路 径 对 象 和 Windows 路 径 对 象 。 这 种 区 分 几乎 是 不 需要 的 , 因为 大 
多 数 时候 ， 我 们 不 想 关 心路 径 的 操作 系统 级 细节 。 使 用 pathlip 的 一 个 重要 原因 是 ， 我 们 希望 处 理 
过 程 与 底层 的 操作 系统 无 关 。 处 理 PureLinuxPath 对 象 的 情况 可 能 很 罕见 。 

本 节 中 的 所 有 小 实例 都 将 利用 以 下 代码 : 

>>> from pathlib import Path 

我 们 很 少 使 用 pathlipb 中 的 其 他 类 定义 。 

假设 argparse 用 于 收集 文件 或 目录 名 称 。 有 关 argparse 的 更 多 信息 ， 请 参阅 5.5 节 。 我 们 还 
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将 使 用 options 变量 ， 该 变量 具有 实例 使 用 的 输入 文件 名 或 目录 名 称 。 
为 了 便于 说 明 ， 我 们 通过 提供 下 面 的 Namespace 对 象 来 展示 一 个 模拟 的 参数 解析 。 


>>> from argparse import Namespace 

>>> options = Namespace( 

input='/path/to/some/file.csv', 
filel='/Users/slott/Documents/Writing/Python Cookbook/code/ch08 r09.py', 
file2='/Users/slott/Documents/Writing/Python Cookbook/code/ch08 ri1i0.py', 



































..) 

options 对 象 有 三 个 模拟 参数 值 。 input 值 是 一 个 纯 路 径 ， 它 不 一 定 是 一 个 实际 的 文件 。filel 

值 和 file2 值 是 我 计算 机 上 的 具体 路 径 . 这 个 options 对 象 的 行为 与 argparse 模块 创建 的 options 
对 象 相同 。 


9.2.2 ”实战 演练 


我 们 将 一 些 常 见 的 路 径 名 称 操作 作为 单独 的 小 实例 来 展示 ， 如 下 所 示 。 
口 根据 输入 文件 名 生成 输出 文件 名 。 

口 生成 多 个 同 级 的 输出 文件 。 

口 创建 一 个 目录 以 及 多 个 文件 。 

口 通过 比较 文件 日 期 来 查找 新 文件 。 

口 删除 文件 。 

D 查找 与 指定 模式 匹配 的 所 有 文件 。 

1. 通过 更 改 输入 文件 名 的 后 缀 创建 输出 文件 名 

执行 以 下 步骤 ， 通 过 更 改 输入 文件 名 的 后 级 创建 输出 文件 名 。 

(1) 从 输入 文件 名 字符 串 创建 一 个 Path 对 象 。Path 类 将 解析 字符 串 来 确 


>>> input_path = Path(options.input) 
>>> input_path 
PosixPath('/path/to/some/file.csv') 


在 本 例 中 ， 由 于 我 使 用 的 是 Mac OSX， 因 此 显示 为 PosixPath 类 。 在 Windows 计算机 上 ,将 
显示 WindowsPath 类 。 
(2) 使 用 with_suffix() 方 法 创建 输出 Path 对 象 。 


>>> output path = input path.with suftfix(' .out') 
>>> output path 
PosixPath('/path/to/some/file.out') 


所 有 的 文件 名 解析 都 由 Path 类 无 颖 处 理 。with_suffix() 方 法 可 以 避免 手动 解析 文件 名 文本 。 
2. 使 用 不 同名 称 创 建 多 个 同 级 的 输出 文件 

执行 以 下 步骤， 使 用 不 同名 称 创 建 多 个 同 级 的 输出 文件 。 

(1) 从 输入 文件 名 字符 串 创 建 一 个 Path 对 象 。Path 类 将 解析 字符 串 来 确定 路 径 的 元 素 。 


>>> input_path = Path(options .input) 
>>> input_path 
PosixPath('/path/to/some/file.csv') 
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在 本 例 中 ， 由 于 我 使 用 的 是 Mac OS X， 因 此 显示 为 PosixPath 类 。 在 Windows 计算 机 上 ， 将 
显示 WindowsPath 类 。 


(2) 从 文件 名 中 提取 父 目录 和 主 文件 名 。 主 文件 名 是 没有 后 级 的 名 称 。 


>>> input directory = input path.parent 
>>> input_stem = input path.stem 
































占 











(3) 构建 所 需 的 输出 名 称 。 本 例 将 _pass 附加 到 文件 名 上 。 输 入 文件 file.csv 将 产生 一 个 名 为 
file_pass.csv 的 输出 。 


>>> output_stem pass = 
>>> output_stem pass 
'file pass' 


(4) 构建 完整 的 Path 对 象 。 


input_stem + " pass" 





>>> output path = (input directory / output stem pass) .with suffix('.csv') 
>>> output path 


PosixPath('/path/to/some/file pass.csv') 





我 们 使 用 /和 path 组 件 组 装 了 一 个 新 路 径 。 该 路 径 需 要 放 在 括号 中 ， 以 确保 首先 执行 ， 并 创建 
一 个 新 的 Path 对 象 。input_qdirectory 变量 的 值 是 父 级 的 Path 对 象 ，output_stem_pass 是 一 
个 简单 的 字符 串 。 通 过 /运算 符 组 装 新 路 径 之 后 ， 使 用 with_suffix() 方 法 来 确保 使 用 一 个 特定 的 
后 级 。 

3. 创建 一 个 目录 和 多 个 文件 
执行 以 下 步骤 ,创建 一 个 目录 和 多 个 文件 
(1) 从 输入 文件 名 字符 
































创建 一 个 Path 对 象 。Path 类 将 解析 字符 串 来 确定 路 径 的 元 素 。 
>>> input path = Path(options .input) 
>>> input_path 


PosixPath('/path/to/some/file.csv') 


在 本 例 中 ， 由 于 我 使 用 的 是 Mac OS X， 因 此 显示 为 PosixPath 类 。 在 Windows 计算 机 


























项 





ELE 示 WindowsPath 类 。 











(2) 创建 输出 目录 的 Path 对 象 。 本 例 将 创建 一 个 output 目录 作为 与 源 文件 
目录 。 


>>> output parent = input path.parent / 
>>> output_ parent 


PosixPath('/path/to/some/output') 


(3) 使 用 输出 Path 对 象 创建 输出 文件 名 。 在 本 例 中 , 输出 目录 将 包含 一 个 与 输入 文件 的 名 称 相同 
但 后 级 不 同 的 文件 。 





























有 相同 父 目 录 的 子 


"output" 




















>>> input_stem = input path.stem 


>>> output path = (output parent / input_ stem) .with suffix('.src') 














我 们 使 用 /运算 符 组 装 了 一 个 来 自 父 Path 对 象 的 新 Path 对 象 和 一 个 基于 文 们 





F 名 的 主 文件 名 的 字 
和 。 创 建 Path 对 象 后 ， 可 以 使 用 with_suffix() 方 法 为 文件 设置 所 需 的 后 级 。 
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4. 比较 文件 日 期 来 查找 新 文件 
执行 如 下 步 又 ， 通 过 比较 文件 的 日 期 来 查找 新 文件 。 
(1) 从 输入 文件 名 字符 串 创 建 一 个 Path 对 象 。Path 类 将 解析 字符 串 来 确定 路 径 的 元 素 。 


>>> filel path = Path(options .filel) 
>>> filel _ path 


























PosixPath('/Users/slott/Documents/Writing/Python Cookbook/code/ch08_r09.py') 
>>> file2 path = Path(options .file2) 
>>> file2 path 


PosixPath('/Users/slott/Documents/Writing/Python Cookbook/code/ch08_r10.py') 


(2) 使 用 每 个 Path 对 象 的 stat () 方 法 来 获取 文件 的 时 间 戳 。stat () 方 法 返回 了 一 个 stat 对 象 ， 
在 stat 对 象 内 ，st_mtime 属性 提供 文件 最 近 的 修改 时 间 。 

>>> filel path.stat().st mtime 

1464460057.0 


>>> file2 path.stat().st mtime 
1464527877.0 


结果 值 是 以 秒 为 单位 的 时 间 戳 ,我们 可 以 很 容易 地 比较 出 两 个 值 中 的 哪 一 个 更 新 。 
如 果 想 让 时 间 戳 更 容易 理解 ， 那 么 可 以 使 用 aatetime 模块 将 时 间 戳 转换 为 aatetime 对 象 。 


>>> import datetime 

>>> mtime 1 = filel path.stat().st mtime 
>>> datetime.datetime.fromtimestamp (mtime 1) 
datetime.datetime(2016, 5, 28, 14, 27, 37) 

































































可 以 使 用 strftime() 方 法 格式 化 datetime 对 象 ， 或 者 使 用 isoformat () 方 法 来 提供 标准 化 
显示 。 请 注意 ， 时 间 会 将 本 地 时 区 偏 移 隐 式 地 应 用 于 操作 系统 时 间 惟 。 取 决 于 操作 系统 的 配置 ， 一 台 
笔记 本 电脑 也 许 不 会 显示 与 它 访问 的 服务 器 相同 的 时 间 ， 因 为 它们 可 能 位 于 不 同 的 时 区 。 

5. 删除 文件 

删除 文件 的 Linux 术语 是 取消 链接 ( unlinking )。 由 于 一 个 文件 可 能 有 多 个 链接 ， 因 此 在 删除 所 有 
链接 之 前 ， 不 会 删除 实际 数据 。 

(1) 从 输入 文件 名 字符 串 创 建 一 个 Path 对 象 。Path 类 将 解析 字符 串 来 确定 路 径 的 元 素 。 


>>> input_path = Path(options .input) 
>>> input_path 
PosixPath('/path/to/some/file.csv') 


































































































GO) 使 用 Path 对 象 的 unlink () 方 法 删除 目录 条 目 。 如 果 这 是 数据 的 最 后 一 个 目录 条 目 ， 那 么 操 
作 系 统 将 回收 存储 空间 。 
>>> try: 
input path.unlink() 
. except FileNotFoundError as ex: 


fy print ("File already deleted") 
File already deleted 





如 果 文 件 不 存在 ， 则 抛 出 FileNotFoungdError 异常 。 在 某 些 情况 下 ， 这 个 异常 需要 用 pass 语 


句 来 静默 。 在 其 他 情况 下 ， 和 警告 信息 可 能 很 重要 。 缺 失 的 文件 也 可 能 表示 严重 的 错误 。 
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此 外 ， 可 以 使 用 Path 对 象 的 rename () 方 法 重 命名 文件 ， 也 可 以 使 用 symlink_to() 方 法 创建 
新 的 软 链接 。 创 建 操作 系统 级 的 硬 链接 ， 需 要 使 用 os .1ink () 函数 。 








6. 查找 与 指定 模式 匹配 的 所 有 文件 





以 下 是 查找 与 指定 模式 匹配 的 所 有 文件 的 步骤 。 


(1) 从 输入 








>>> directory path = Path(options.filel1) .parent 
>>> directory path 
PosixPath('/Users/slott/Documents/Writing/Python Cookbook/code') 








(2) 使 
历 整 个 目录 树 。 














目录 名 称 创建 一 个 Path 对 象 。Path 类 将 解析 字符 串 来 确定 路 径 的 元 素 。 








>>> list(directory path.glob("ch08 _r*.py")) 


[PosixPath(' 
PosixPath(' 
PosixPath(' 
PosixPath(' 
PosixPath(' 
PosixPath(' 
PosixPath(' 


9.2.3 工作 原理 


在 操作 系统 中 ， 路 径 是 一 个 
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/Users/slott/Documents/Writing/Python 
/Users/slott/Documents/Writing/Python 
/Users/slott/Documents/Writing/Python 
/Users/slott/Documents/Writing/Python 
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.py'), 
“DY ' 
“DY ' 
“DY ' 
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用 Path 对 象 的 glob () 方 法 查找 与 指定 模式 匹配 的 所 有 文件 。 默 认 情 况 下 ， 不 会 递归 地 遍 


F 夹 是 对 目录 的 描述 )。 例 如 ， 在 名 称 /Users/slott/ 





含 了 Documents 子 目 录 ，Documents 目录 包含 了 writing 子 目 录 。 


在 某 些 情况 下 ， 可 以 使 月 














简单 的 字符 是 











示 使 许多 路 径 操 作 变 成 了 复杂 的 字符 串 解 析 问 题 。 
F 多 对 纯 路 径 的 操作 。 纯 路 径 不 一 定 反映 实际 的 文件 系统 资源 。 对 Path 的 操 


Path 类 定义 简化 了 计 





作 包 括 以 下 示例 。 
口 提取 父 








口 提取 最 终 的 文件 名 、 


目录 ， 以 及 一 个 包含 所 有 目录 名 称 的 序列 。 
最 终 文件 名 的 主 文件 名 和 最 终 文件 名 的 后 级 。 











口 将 字符 串 转 换 为 
使 
口 使 
具体 路 径 代表 一 个 实 
口 确定 目录 条 目的 利 


设备 。 
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path, 或 将 Pat 
用 文件 名 字符 串 。 
用 /运算 符 从 现 有 的 Path 和 字符 上 


i 类， 普通 文人 














口 用 新 的 后 级 替换 原 有 的 后 级 或 者 用 新 名 称 替换 整个 名 称 
h 转换 为 字符 串 。 许 多 操作 系统 函数 和 部 分 Python 对 象 喜欢 
































EF、 目录 、 链 接 、 套 接 字 、 


[e) 


构建 新 Path 对 象 。 
际 的 文件 系统 资源 ,。 对 于 具体 的 路 径 , 可 以 对 目录 信息 进行 一 些 额外 的 操作 。 
命名 管道 (或 fifo )、 块 设备 或 字符 





口 获取 目录 详细 信息 ， 其 中 包括 时 间 戳 、 权 限 、 所 有 者 、 大 小 等 ， 也 可 以 修改 这 些 信 息 。 
D 还 可 以 取消 链接 〈 或 删除 ) 目录 条 目 。 





来 表示 从 根 目 录 到 最 终 目标 目录 的 导航 。 但 是 ,字符 


1， 根 目录 /包含 一 个 名 为 Users 的 目录 ，Users 目录 包含 了 slott 子 目录 ，slott 目录 包 


表 
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大 多 数 关于 文件 目录 条 目的 操作 都 可 以 通过 pathlipb 模块 完成 。 少 数 例外 的 操作 可 以 由 os 或 
os .path 模块 完成 。 


9.2.4 补充 知识 


本 章 其 余 与 文件 相关 的 实例 将 使 用 Path 对 象 来 命名 文件 ， 避 免 尝 试 使 用 字符 串 来 表示 路 径 。 

pathlipb 模 块 的 Linux 纯 路 径 对 象 和 Windows 纯 路 径 对 象 之 间 有 一 些 细微 的 区 别 。 大 多 数 情况 下 ， 
我 们 不 关心 路 径 的 操作 系统 级 细节 。 

在 两 种 情况 下 为 特定 的 操作 系统 生成 纯 路 径 会 有 帮助 。 

口 如 果 在 Windows 笔记 本 电脑 上 进行 开发 ， 但 是 在 Linux 服务 器 上 部 署 Web 服务 ， 则 可 能 需要 


使 用 PureLinuxPath。 这 样 就 可 以 在 Windows 开发 机 上 编写 在 Linux 服务 器 上 反映 实际 用 途 
的 测试 用 例 。 


口 如 果 在 Mac OS X (或 Linux ) 笔记 本 电脑 上 进行 开发 ， 但 是 需要 专门 部 署 到 Windows 服务 器 
上 ， 则 可 能 需要 使 用 PurewindowsPath。 
示例 如 下 所 示 : 


>>> from pathlib import PureWindowsPath 

>>> home path PureWindowsPath(r'C:\Users\slott') 
>>> name path home path / 'filename.ini' 

>>> name path 
PureWindowsPath('C:/Users/slott/filename.ini') 

>>> str(name path) 
'C:\\Users\\slott\\filename.ini' 



















































































请 注意 ,在 显示 WindowsPath 对 象 时 , /字符 将 从 Windows 符 号 归 一 化 为 Python 符 号 ,使 用 str() 
函数 可 以 将 纯 路 径 对 象 转换 为 适用 于 Windows 操作 系统 的 路 径 字 符 串 。 
如 果 使 用 通用 的 Path 类 来 实现 上 述 示例 ， 那 么 将 得 到 一 个 适合 用 户 环境 的 实现 ， 这 个 用 户 环境 
可 能 不 是 Windows。 通 过 使 用 PurewingdowsPath， 我 们 绕 过 了 用 户 实际 操作 系统 的 限制 。 


9.2.5 延伸 阅读 

































































口 9.4 节 将 介绍 如 何 利用 Path 的 功能 创建 一 个 临时 文件 , 然后 重 命名 临时 文件 来 替换 原始 文件 。 
D 5.5 节 介绍 了 一 种 通用 方式 来 获取 用 于 创建 Path 对 象 的 初始 字符 串 。 


9.3 ”使 用 上 下 文 管理 器 读 取 和 写 入 文件 
许多 程序 需要 访问 外 部 资源 ， 如 数据 库 连接 、 网 络 连接 和 操作 系统 文件 。 对 于 可 靠 性 高 的 程序 ， 
可 靠 、 干 净 地 释放 所 有 外 部 资源 非常 重要 。 


抛 出 异常 并 最 终 崩 淡 的 程序 仍然 可 以 正确 释放 资源 。 正 确 释放 资源 包括 关闭 文件 并 确保 所 有 缓冲 
数据 正确 写 人 了 文件 。 


这 对 于 长 时 间 运 行 的 服务 器 尤其 重要 。Web 服务 器 可 以 打开 和 关闭 许多 文件 。 如 果 服 务 器 没有 正 
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角 关闭 每 个 文件 ,那么 数据 对 象 可 能 会 留 在 内 存 中 ,从 而 减少 可 用 于 正在 运行 的 Web 服务 的 内 存 空间 。 
可 用 内 存 的 减少 像 是 一 种 缓慢 的 泄漏 。 最 终 需 要 重新 启动 服务 器 ， 降 低 了 可 用 性 。 
如 何 确保 正确 获取 和 释放 资源 ? 如 何 避 免 资源 泄漏 ? 


9.3.1 准备 工作 


举 个 常见 的 例子 , 外 部 文件 就 是 一 种 昂贵 且 重 要 的 资源 。 为 了 写 人 而 打开 的 文件 也 是 重要 的 资源 ， 
毕竟 ， 应 用 程序 通常 以 文件 的 形式 创建 有 用 的 输出 。 与 文件 相关 联 的 操作 系统 级 资源 必须 由 Python 
应 用 程序 干净 地 释放 出 来 。 我 们 和 希望 确保 无 论 应 用 程序 内 发 生 什么 情况 ,缓冲 区 都 将 被 刷新 ,文件 都 
将 被 正确 关闭 。 

当 使 用 上 下 文 管理 器 时 ， 我 们 可 以 确保 应 用 程序 正在 使 用 的 文件 被 正确 处 理 。 具 体 来 说 ， 即 使 处 
理 过 程 中 出 现 异 常 ， 文 件 最 终 也 将 关闭 。 

例如 , 我们 使 用 一 个 脚本 来 收集 目录 中 文件 的 一 些 基 本 信息 。 上 下 文 管理 器 可 以 用 于 检测 文件 
更 改 ， 当 文件 被 替换 时 ， 该 技术 通常 用 于 触发 处 理 。 

我 们 将 编写 一 个 摘要 文件 ， 该 文件 包含 文件 名 、 修 改 日 期 、 大 小 以 及 根据 文件 中 字 节 计算 的 校 验 
和 。 然 后 可 以 检查 目录 ， 并 将 其 与 摘要 文件 中 的 前 一 状态 进行 比较 。 单 个 文件 的 详细 描述 可 以 通过 如 
下 函数 编制 : 

from types import SimpleNamespace 


import datetime 
from hashlib import md5 
























































































































































beam 


的 













































































def file facts(pPatnh) : 
return SimpleNamespacel 
name = str(path), 
modified = datetime.datetime.fromtimestamp( 
path.stat().st_mtime).isoformat(), 
size = path.stat().st_size, 
checksum = md5 (path.read_ bytes()).hexdigest() 
) 

该 函数 从 path 参数 中 给 定 的 Path 对 象 获取 文件 的 相对 路 径 , 也 可 以 使 用 resolve () 方 法 获取 
绝对 路 径 名 。Path 对 象 的 stat () 方 法 返回 多 个 操作 系统 状态 值 。 st_mt ime 状态 值 是 上 次 修改 时 间 。 
表达 式 path.stat () .st_mtime 将 获取 文件 的 修改 时 间 。 这 个 表达 式 可 以 用 于 创建 一 个 完整 的 
datetime 对 象 。isoformat () 方 法 提供 了 修改 时 间 的 标准 化 显示 。 

path.stat() .st_size 的 值 是 文件 的 当前 大 小 。path.read_bytes () 的 值 是 文件 的 所 有 字 节 ， 
这 些 字 节 将 被 传递 给 ma5 类 来 使 用 MD5 算法 创建 校 验 和 。 所 得 到 的 md5 对 象 的 hexdigest () 函数 
将 提供 一 个 可 以 检测 文件 中 任何 单字 节 更 改 的 值 。 

我 们 想 把 这 个 脚本 应 用 于 目录 中 的 多 个 文件 。 如 果 目 录 正 在 被 使 用 ， 例 如 文件 在 被 频繁 写 和 人, 那 
么 我 们 的 分 析 程 序 可 能 会 在 尝试 读 取 由 另 一 个 进程 写 人 的 文件 时 发 生 IO 异常 而 崩溃 。 

我 们 将 使 用 上 下 文 管理 器 来 确保 程序 即使 在 出演 的 罕见 情况 下 也 能 提供 良好 的 输出 。 
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9.3.2 ”实战 演练 
(1) 由 于 本 实例 需要 使 用 文件 路 径 ， 因 此 导入 Path 类 非常 重要 。 


from pathlib import Path 

(2) 创建 一 个 标识 输出 文件 的 Path 对 象 。 

summary_path = Path('summary .dat') 

(3) with 语句 创建 了 file 对 象 ， 并 将 该 对 象 赋值 给 变量 summary_file。 它 还 将 file 对 象 月 
作 上 下 文 管理 器 。 


with summary_path.open('w') as summary_file: 

summary_file 变量 可 以 用 作 一 个 输出 文件 。 无 论 with 语句 内 部 抛 出 什么 异常 ， 文 件 都 将 正确 
关闭 并 释放 所 有 操作 系统 资源 。 

以 下 语句 将 当前 工作 目录 中 的 文件 信息 写 入 打开 的 摘要 文件 。 这 些 语句 应 当 包 含 在 with 语句 内 
并 且 正 确 缩 进 。 


base = Path(".") 
for member in base.glob("*.py"): 
print (file_ facts (member), file=summary_file) 


上 述 代 码 将 为 当前 工作 目录 创建 一 个 Path 对 象 ， 并 将 对 象 保存 在 pase 变量 中 。Path 对 象 的 
glob() 方 法 将 生成 匹配 给 定 模式 的 所 有 文件 名 。 前 面 显示 过 的 file_facts() 函数 将 生成 一 个 包含 
有 用 信息 的 命名 空间 对 象 。 我 们 可 以 把 每 个 文件 的 摘要 信息 都 打印 输出 到 summary_file 中 。 

本 实例 省 略 了 将 输出 转换 为 更 有 用 的 标记 的 处 理 。 如 果 数 据 以 JSON 标记 序列 化 ， 那 么 这 可 能 会 
简化 后 续 处 理 。 

当 with 语句 结束 时 ， 文 件 将 被 关闭 。 无 论 抛 出 什么 异常 ， 都 会 发 生 这 种 情况 。 


9.3.3 工作 原理 


上 下 文 管理 咒 对 象 和 with 语句 一 起 来 管理 重要 的 资源 。 在 本 例 中 ,文件 连接 是 一 种 相对 重要 的 
资源 ， 因 为 它 绑 定 了 应 用 程序 和 操作 系统 资源 。 另 外 ， 它 也 是 脚本 的 有 用 输出 。 

当 编 写 with x: 时 ， 对 象 x 是 上 下 文 管理 器 。 上 下 文 管 理 器 对 象 响 应 两 种 方法 ， 这 两 种 方法 由 所 
提供 对 象 的 witn 语句 调用 。 重 要 的 事件 如 下 。 

口 x. enter__() 方 法 在 上 下 文 开始 时 调用 。 

口 x._ exit _(*gdetails) 方 法 在 上 下 文 结束 时 调用 。 无 论 上 下 文中 抛 出 任何 异常 ， 
__exit _() 方 法 都 一 定 会 被 调用 。 异常 的 详细 信息 将 提供 给 ”exit__() 方法 。 如 果 出 现 异 
常 ， 上 下 文 管理 器 可 能 希望 采取 不 同 的 行为 。 

根据 Python 语言 的 设计 ， 文 件 对 象 和 其 他 几 种 对 象 可 以 使 用 这 种 对 象 管理 器 协议 。 

描述 如 何 使 用 上 下 文 管理 器 的 事件 序列 如 下 所 示 。 

(1) 执行 summary_path.open('w') 来 创建 一 个 文件 对 象 。 在 本 实例 中 ,文件 将 被 保存 到 


summary_file 中 。 
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(2) 在 上 下 文 开始 时 ， 执 行 summary_file. enter _()。 

(3) 在 with 语句 上 下 文中 进行 处 理 。 在 本 实例 中 ， 处 理 将 向 给 定 文件 写 人 几 行 数据 。 

(4) 在 with 语句 结束 时 ,执行 summary_file. exit _()。 这 将 关闭 输出 文件 并 释放 所 有 操 
作 系 统 资源 。 

(5) 如 果 with 语句 内 抛 出 了 异常 并 且 未 被 处 理 ， 那 么 在 文件 正确 关闭 之 后 重新 抛 出 该 异常 。 

文件 关闭 操作 由 with 语句 自动 处 理 。 即 使 抛 出 异常 ， 也 总 是 执行 此 操作 。 这 种 保证 对 于 防止 资 
源 泄漏 至 关 重 要 。 

有 些 人 喜欢 对 总 是 这 个 词 吹 毛 求 疲 : 他 们 喜欢 搜索 上 下 文 管理 器 无 法 正常 工作 的 极 少数 情况 。 例 
如 ， 整 个 Python 运行 时 环境 有 很 低 的 可 能 性 会 崩 演 ， 这 将 使 所 有 的 语言 保证 失效 。 如 果 Python 上 下 
文 管理 器 没有 正确 关闭 文件 ， 那 么 操作 系统 将 关闭 该 文件 ,但 是 最 终 的 缓冲 区 数据 可 能 会 丢失 。 还 有 
一 些 可 能 性 更 低 的 情况 ， 比 如 整个 操作 系统 崩溃 ， 或 者 硬件 停止 工作 ， 或 者 计算 机 在 僵尸 末日 中 被 破 
坏 。 在 这 些 情况 下 ， 上 下 文 管理 器 也 不 会 关闭 这 些 文件 。 











































































































9.3.4 ”补充 知识 


许多 数据 库 连 接 和 网 络 连接 也 可 以 作为 上 下 文 管理 器 。 上 下 文 管 理 器 保证 连接 正确 关闭 并 释放 资源 。 

输入 文件 也 可 以 使 用 上 下 文 管理 器 。 使 用 上 下 文 管理 器 进行 所 有 文件 操作 是 公认 的 最 佳 实践 。 本 
章 中 的 大 部 分 实例 都 将 使 用 文件 和 上 下 文 管理 器 。 

在 极 少 数 情 况 下 ， 我 们 需要 为 对 象 添加 上 下 文 管理 功能 。contextlib 模块 包含 一 个 函数 
closing ()， 该 函数 将 调用 一 个 对 象 的 close () 方 法 。 

可 以 使 用 该 函数 来 包 庄 缺少 适当 上 下 文 管理 器 功 能 的 数据 库 连 接 : 


from contextlib import closing 
with closing(some_ database()) as database: 
process (database) 


上 述 代码 假设 some_qatabase() 函数 创建 了 一 个 数据 库 连 接 。 该 连接 不 能 直接 用 作 上 下 文 管理 
器 。 通 过 在 closing () 函数 中 包 右 连接 ， 我 们 为 该 连接 添加 了 必要 的 功能 ， 使 其 成 为 连接 管理 器 对 
象 ， 这 样 就 可 以 确保 数据 库 正确 关闭 。 


























































































































9.3.5 延伸 阅读 
口 关于 多 个 上 下 文 的 更 多 信息 ， 请 参阅 9.12 节 。 


9.4 ”替换 文件 ， 同 时 保留 以 前 的 版 本 


我 们 可 以 利用 pathlipb 模块 的 功能 支持 各 种 文件 名 操作 。9.2 方 介绍 了 一 些 最 常用 来 管理 目录 、 
文件 名 和 文件 后 绥 的 技术 。 

以 安全 失败 ( fail-safe ) 方式 创建 输出 文件 是 一 种 常见 的 文件 处 理 要 求 ,也 就 是 说 ,应 用 程序 无 论 
以 任何 方式 出 现 错误 或 者 在 任何 位 置 出 现 错误 ， 都 应 该 保留 任何 以 前 的 输出 文件 。 
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思考 以 下 场景 。 

(1) 在 时 刻 ， 有 一 个 因 昨 天 使 用 long_complex.py 应 用 程序 得 到 的 有 效 文件 output.csv。 

(2) 在 时刻， 开始 运行 long_complex.py 应 用 程序 。 它 开始 覆盖 output.csv 文件 ， 预 计 在 ts 时 刻 
正常 完成 。 

(3) 在 时 刻 ， 应 用 程序 月 演 。 部 分 output.csv 文件 是 无 用 的 。 更 糟糕 的 是 ，m 时 刻 的 有 效 文件 也 
不 可 用 ， 因 为 已 经 被 覆盖 了 。 

显然 ,可 以 备份 文件 ,但 是 这 将 引入 一 个 额外 的 处 理 步骤 。 我 们 有 更 好 的 解决 方案 。 如 何以 安全 
失败 的 方式 创建 文件 ? 


9.4.1 准备 工作 


安全 失败 的 文件 输出 通常 意味 着 不 会 覆盖 以 前 的 文件 ， 应 用 程序 将 使 用 临时 名 称 创建 新 文件 。 如 
果 已 成 功 创建 文件 ， 则 使 用 重 命名 操作 替换 旧 文 件 。 

本 实例 的 目标 是 以 如 下 方式 创建 文件 : 在 重 命名 之 前 的 任何 时 刻 出 现 程 序 崩 演 时 ， 将 保留 原始 文 
件 。 在 重 命 名 之 后 的 任何 时 刻 ， 新 文件 都 是 已 经 就 位 并 且 有 效 的 。 
解决 该 问题 的 方法 有 很 多 种 。 本 实例 将 展示 一 种 使 用 三 个 单独 文件 的 方法 。 
口 最 终 将 被 覆盖 的 输出 文件 : output.csv。 
口 文件 的 临时 版 本 : output.csv.tmp。 该 文件 的 命名 约定 有 很 多 种 。 有 时 在 文件 名 中 加 入 附加 的 字 
符 , 如 ~ 或 #, 以 表示 该 文件 是 一 个 临时 的 、 正 在 使 用 的 文件 。 有 时 该 文件 在 /tmp 文件 系统 中 。 
口 文件 的 旧版 本 : name.out.old。 最 终 的 输出 处 理 将 删除 所 有 以 前 的 .old 文件 。 


9.4.2 ”实战 演练 
(1) 导入 Path 类 。 


>>> from pathlib import Path 


(2) 为 了 便于 演示 ， 提 供 Namespace 对 象 模 拟 参 数 解 析 ， 如 下 所 示 。 
>>> from argparse import Namespace 
>>> options = Namespace( 
target='/Users/slott/Documents/Writing/Python Cookbook/code/output .csv' 
a 
我 们 为 命令 行 参数 target 提供 了 一 个 模拟 值 。 options 对 象 的 行为 与 argparse 模块 创建 的 
options 类 似 。 


(3) 为 最 终 的 输出 文件 创建 纯 路 径 。 因 为 输出 文件 目前 还 不 存在 ， 所 以 创建 纯 路 径 。 


>>> output path = Path(options.target) 
>>> output path 
PosixPath('/Users/slott/Documents/Writing/Python Cookbook/code/output.csv') 


(4) 为 临时 输出 文件 创建 纯 路 径 。 临 时 输出 文件 将 用 于 创建 输出 文件 。 


>>> output_temp_path = output path.with suffix('.csv.tmp') 
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(5) 将 内 容 写 入 临时 文件 。 该 步 又 是 应 用 程序 的 核心 ， 通 常 非常 复杂 ， 本 实例 将 该 步骤 简化 为 仅 











写 和 人 一 个 字符 串 。 


命 


态 


9 


可 能 


>>> output_ temp path.write text ("Headingl1,Heading2\r\n355,113\r\n") 


0 该 步骤 的 任何 故障 都 不 会 影响 原始 的 输出 文件 ， 因 为 还 没有 用 到 原始 文件 。 


(6) 删除 任何 以 前 的 .old 文件 。 


>>> output_old_path = output path.with suffix('.csv.o0ld') 
>>> try: 





家 output_old path.unlink() 
. except FileNotFoundError as ex: 


pass # 不 存在 以 前 的 .old 文件 


外 该 步骤 的 任何 故障 都 不 会 影响 原始 的 输出 文件 。 

















(7) 如 果 已 存在 该 文件 ， 将 其 重 命名 为 .old 文件 。 


>>> output path.rename (output old path) 


该 步 又 之 后 的 任何 故障 ， 都 会 保留 .old 文件 。 作 为 恢复 处 理 的 一 部 分 ， 这 个 额外 文件 可 以 被 重 
名 。 
(8) 将 临时 文件 重 命名 为 新 的 输出 文件 。 


>>> output temp path.rename (output path) 


(9) 此 时 ， 通 过 重 命名 临时 文件 ， 原 始 输出 文件 已 被 覆盖 。 如 果 需 要 将 处 理 过 程 回 滚 到 以 前 的 状 
， 那 么 .old 文件 将 会 被 保留 。 






























































.4.3 工作 原理 











本 实例 的 处 理 过 程 涉及 三 个 单独 的 操作 系统 操作 ， 一 个 取消 链接 和 两 个 重 命名 。 在 处 理 过 程 中 ， 
需要 使 用 .old 文件 恢复 以 前 的 良好 状态 。 
显示 各 个 文件 状态 的 时 间 轴 如 下 所 示 。 我 们 将 内 容 标记 为 版 本 1 ( 以 前 的 内 容 ) 和 版 本 2 ( 修订 




































































后 的 内 容 )。 
时 刻 操 作 .CSV.old .CSV .CSv.tmp 
加 版 本 0 版 本 1 
如 写 人 版 本 0 版 本 1 处 理 中 
如 关闭 版 本 0 版 本 1 版 本 2 
13 | 除 .csv.old 版 本 1 版 本 2 
fa 重 命名 .csv 为 .csv.old 版 本 1 版 本 2 
ts 重 命名 .csv.tmp 为 .csv 版 本 1 版 本 2 
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虽然 导致 程序 出 错 的 可 能 性 比较 多 ， 但 对 于 有 效 文件 并 没有 什么 异议 。 











口 如 果 存 在 .csv 文件 ， 
口 如 果 不 存 在 .csv 文件 ， 那 么 .csv.old 文件 是 一 个 可 用 于 恢复 的 备份 副本 。 








那么 该 文件 就 是 当前 的 有 效 文件 。 











由 于 这 些 操作 都 不 涉及 实际 的 文件 复制 ， 因 此 它们 都 非常 快速 可 靠 。 


9.4.4 ”补充 知识 


在 许多 情况 下 ， 输 出 文件 可 以 选择 根据 时 间 戳 创建 


地 实现 。 例 如 ， 我 们 可 能 





一 个 存放 旧 文 件 归档 目录 : 





archive_path = Path("/path/to/archive") 


我 们 可 能 希望 创建 用 于 保留 临时 文件 或 正在 使 用 文件 的 日 期 戳 子 目录 : 


import datetime 


today = datetime.datetime.now() .strftime("%Y%m%d %H%M%SS") 


然后 ， 可 以 定义 一 个 工作 目录 ， 如 下 所 示 : 


working_path = archive path / today 
working_path.mkdir (parents=True, exists_ ok=True) 


mkdir () 方 法 将 创建 预期 目录 ，parents=True 参数 确保 所 有 父 目 录 也 将 被 创建 。 在 第 一 次 执行 
应 用 程序 时 , 这 些 设置 是 很 方便 的 。exists_ok=True 参数 也 非常 方便 , 使 用 该 参数 后 现 有 的 目录 可 

















以 重用 而 不 会 抛 出 异常 。 











parents=True 不 是 默认 参数 值 。 在 默认 情况 下 parents=Fals 








目录 。 这 种 操作 可 以 通过 pathlip 模块 优雅 














序 将 崩 演 ， 因 为 所 需 的 文件 不 存在 。 
exists_ok=True 同样 不 是 默认 的 。 在 默认 情况 下 ， 如 果 目 录 已 存在 ， 则 抛 出 FileExis 




















Error 异常 。 除 此 之 外 ,该 参数 还 包含 当 目 录 存 在 时 不 抛 出 异常 的 选项 。 


， 当 父 目 录 不 存在 时 ， 应 














用 程 








CS 


此 外 ,在 某 些 情况 下 ,使 用 tempfile 模块 创建 临时 文件 也 是 恰当 的 。 该 模块 可 以 创建 独一无二 
的 文件 名 。 这 样 ， 复 杂 的 服务 器 进程 就 可 以 在 不 考虑 文件 名 冲突 的 情况 下 创建 临时 文件 。 


9.4.5 延伸 阅读 























口 9.2 节 介 绍 了 Path 类 的 基本 知识 。 





口 第 11 章 将 介绍 一 些 编写 单元 测试 的 技术 ， 这 些 技 术 可 以 保证 本 实例 正常 运行 。 


9.5 使 用 CSV 模块 读 取 帝 分 隔 符 的 文件 


CSV 是 一 种 常用 的 数据 格式 ， 逗号 只 是 众多 候选 分 隔 符 中 的 一 种 。 我 们 可 能 有 一 个 使 用 | 字符 作 
为 数据 列 之 间 分 隔 符 的 CSV 文件 。 这 种 泛 化 使 得 CSV 文件 的 功能 特别 强大 。 
如 何 处 理 各 种 CSV 格式 的 数据 ? 
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9.5.1 准备 工作 











文件 内 容 的 摘要 叫 作 模式 (schema )。 区 分 模式 的 两 个 方面 至 关 重要 。 
口 文件 的 物理 格式 : 对 于 CSV， 这 意味 着 文件 包含 文本 。 文 本 被 组 织 成 行 和 列 ， 还 有 行 分 隔 符 
和 列 分 隔 符 。 许 多 电子 表格 产品 使 用 , 作为 列 分 隔 符 ， 使 用 \r\n 字符 序列 作为 行 分 隔 符 。 但 








情况 。 





















































是 ， 也 可 以 使 用 其 他 格式 ， 还 可 以 轻松 地 更 改 分 隔 列 和 行 的 标点 符号 。 标 点 符号 的 特定 组 合 
被 称 为 CSV 方言 ( dialect )。 
口 文件 中 数据 的 逻辑 布局 : 即 当前 数据 列 的 序列 。CSV 文件 

















的 逻辑 布局 处 理 有 几 种 常见 的 


























里 文件 有 一 行 标题 。 这 是 最 理想 的 , 很 符合 CSV 模块 的 工作 原理 。 最 好 的 标题 是 正确 的 Python 


变量 


里 o 
































和 文件 没有 标题 ， 但 列 位 置 是 固定 的 。 在 这 种 情况 下 ， 当 我 们 打开 文件 时 ， 可 以 为 文件 添加 


标题 。 














里 如 果 文 件 没有 标题 ， 而 且 列 位 置 不 固定 , 那么 这 通常 是 一 个 难以 解决 的 严重 问题 。 我 们 需要 
附加 的 模式 信息 ， 例 如 一 个 单独 的 列 定义 列表 就 能 让 文件 可 用 。 

和 文件 有 多 行 标题 。 在 这 种 情况 下 , 必须 编写 特殊 的 处 理 过 程 跳 过 这 些 行 ,还 必须 使 用 Python 
中 更 有 用 的 结构 来 蔡 代 复杂 的 标题 。 




































































田 更 难 的 情况 是 文件 没有 正确 遵循 第 一 范式 ( first normal form，1NF )。 在 第 一 范式 中 ， 每 行 
独立 于 其 他 所 有 行 。 当 文件 不 满足 这 种 范式 时 ， 需 要 添加 一 个 生成 器 函数 ， 重 新 排列 数据 ， 





















































使 数据 满足 第 一 范式 。 关 于 规范 化 数据 结构 的 其 他 实例 ， 请 参阅 4.4 节 和 8.3 节 。 





本 实例 的 背景 信息 是 一 个 相对 简单 的 CSV 文件 ， 该 文件 包含 帆船 日 志 记 录 的 一 些 实 时 数据 ， 即 
waypoints.csv 文件 。 数 据 如 下 所 示 : 








lat,1lon,date,time 


32.83216666666675 -79.933833333333352012-11-27,09:15;00 
31.67148333333337;-80.9332572012-=11-28,00%00:;00 
30AL7LO6666666067 7 =81..5525,2012=11=28..11:35:00 


数据 共有 4 列 ， 为 了 创建 更 有 用 的 信息 ， 需 要 将 其 重新 格式 化 。 


9.5.2 ”实战 演练 











(1) 导入 csv 模块 和 Path 类 。 


import csV 


(2) 从 pathlib 导入 








pathi 





Examine， 分 析 数 据 确认 以 下 特征 。 





口 列 分 隔 符 : ，，' 为 默认 值 。 
口 行 分 隔 符 : '\r\n' 广 泛 应 用 于 Windows 和 Linux。 这 种 分 隔 符 可 能 是 Excel 文件 的 一 个 特征 ， 
但 它 很 常见 。Python 的 通用 换行 符 特 征 意味 着 Linux 标准 的 '\n' 也 可 以 用 作 行 分 隔 符 。 






































口 是 否 存 在 单行 标题 。 


如 果 不 存 在 ， 可 以 单独 提供 此 信息 。 
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(3) 创建 一 个 标识 文件 的 Path 对 象 。 


dqata_path = Path('waypoints.csv') 


(4) 使 用 Path 对 象 在 with 语句 中 打开 文件 。 


with dqata_path.open() as data_ file: 


有 关 with 语句 的 更 多 信息 ， 请 参阅 9.3 节 。 














(5) 从 打开 的 文件 对 象 创建 CSV 读 取 器 。 这 些 代码 应 当 包含 在 with 语句 内 并 正确 缩 进 。 





data_reader = csv.DictReader (data_file) 


(6) 读 取 ( 和 处 理 ) 各 种 数据 行 。 这 些 代码 应 当 包 含 在 with 语句 内 并 正确 缩 进 。 本 例 的 处 理 


简单 地 打印 数据 。 


for row in data_ reader: 
print (row) 


输出 是 一 系列 字典 ， 如 下 所 示 : 


{aEe a 2OL2L L227 
'Jat': '32.8321666666667', 
"Tom' "=79.9338333333333", 
'time': '09:15:00'} 























FE 
3 
Pau 


由 于 数据 行 已 转换 为 字典 ,因此 列 数 据 并 不 是 原始 的 顺序 ,如果 使 用 pprint 模块 中 的 pprint ()， 

















那么 键 将 按 字母 顺序 排序 。 现 在 可 以 通过 引用 row['gate'] 处 理 数据 。 使 用 列 名 称 比 使 用 索引 位 置 





引用 列 更 具 描 述 性 :row[0] 让 人 难以 理解 。 


9.5.3 ”工作 原理 











csv 模块 在 处 理 物理 格式 时 ， 首 先 将 行 彼此 分 开 ， 然 后 分 隔 每 一 行 中 的 列 。 默 认 规则 确保 每 个 输 


入 行 被 视 为 一 个 单独 的 行 ， 列 由 ", "分隔 。 











当 使 用 列 分 隔 符 作为 数据 的 一 部 分 时 ,会 发 生 什 么 后 果 ? 假 设 数 据 如 下 所 示 : 


lan,1lon,date,time,notes 
32.83257=79".934, 2012=11=27,09:15:00. "breezy, rairiy" 
31.671,-80.933,2012-11-28,00:00:00,"blowing ""like stink""" 


notes 列 的 第 一 行 数据 中 包含 "," 列 分 隔 符 。CSYV 的 规则 允许 列 的 值 由 引号 包围 。 默 认 情 况 下 ， 











引号 是 "。 在 这 些 引 号 包围 的 内 容 中 ， 列 分 隔 符 和 行 分 隔 符 将 被 忽略 。 

















为 了 在 引号 包围 的 字符 串 中 舱 入 引号 字符 ， 需 要 使 用 两 个 引号 字符 。 第 二 个 示例 行 说 明了 
"blowing "like stink"" 值 是 如 何 被 编码 的 : 在 被 引号 包围 的 列 中 使 用 引号 字符 时 ,使 用 了 两 个 。 
这 些 引 号 规则 意味 着 CSV 文件 可 以 表示 字符 的 任何 组 合 ， 包 括 行 分 隔 符 和 列 分 隔 符 。 

CSV 文件 中 的 值 始终 为 字符 串 。 字 符 串 值 7331 在 我 们 看 来 可 能 是 一 个 数 , 但 在 使 用 csv 模块 


























处 理 时 , 它 只 是 文本 。CSV 文件 的 这 种 特点 使 处 理 过 程 简单 而 又 统一 , 但 对 于 用 
































-月 时 愉 


某 些 CSV 数据 是 从 数据 库 或 Web 服务 器 等 软件 中 导出 的 。 这 些 数据 往生 
不 同 的 行 往往 是 以 统一 的 方式 组 织 起 来 的 。 


十 地 谷 


户 来 说 可 能 不 方便 。 




















易 使 用 的 ， 因 为 
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当 数 据 保存 在 手动 创建 的 电子 表格 中 时 , 这 些 数据 可 能 揭示 了 桌面 软件 内 部 数据 显示 规则 的 古怪 
行为 。 例 如 ， 数 据 在 桌面 软件 上 显示 为 一 个 日 期 ， 但 在 CSV 文件 中 显示 为 一 个 简单 的 浮 点 数 。 

日 期 数字 问题 有 两 种 解决 方案 。 一 种 方案 是 在 源 电 子 表格 中 添加 一 列 ， 将 日 期 格式 化 为 字符 串 。 
理想 情况 下 ,这 种 处 理 是 使 用 ISO 规则 完成 的 , 以 便 日 期 以 YYYY-MM-DD 格式 表示 。 另 一 种 解决 方 
将 电子 表格 日 期 识别 为 经 过 某 个 划时代 日 期 (epochal date ) 的 秒 数 。 划 时 代 日 期 略 有 不 同 ， 但 通 
1900 年 1 月 1 日 或 1904 年 1 月 1 日 。 





































































































是 
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球 汰 





9.5.4 ”补充 知识 


正如 8.7 节 所 示 ， 对 于 源 数据 ， 通 常 需要 一 系列 的 处 理 流程 ， 包 括 源 数据 的 清洗 和 转换 。 本 实例 
没有 需要 消除 的 额外 行 ， 但是， 每 列 数据 需要 转换 为 更 有 用 的 形式 。 

为 了 将 数据 转换 为 更 有 用 的 形式 ,我 们 将 使 用 两 段 式 设计 。 首 先 ， 定义 一 个 行 级 的 清洗 函数 。 本 
例 通 过 添加 额外 的 列 值 来 更 新 行 级 字典 对 象 : 


import datetime 
def clean row(source_row): 


























source_row['lat_n']= float (source_ row['lat']) 
source_row['lon n']= float (source_row['lon']) 
source_row['ts_date']= datetime.datetime.strptimel 
source_rowl[l'date'],'%Y-%m-%d') .date!() 
source_row['ts_ time']= datetime.datetime.strptimel 
source_row['time'],'%H:%$M:%5S').time!() 
source_row['timestamp']= datetime.datetime.combinel( 
source_row[l'ts_date'], 
source_row['ts_time'] 





) 


return source_row 


我 们 创建 了 新 的 列 值 ，1at_n 和 lon_n, 它们 的 值 是 浮 点 值 而 不 是 字符 串 。 我 们 通过 解析 日 期 和 时 
间 值 来 创建 datetime .date 和 datetime.time 对 象 ， 并 将 日 期 和 时 间 合 并 为 timestamp 列 的 值 。 

在 拥有 清洗 和 充实 数据 的 行 级 函数 之 后 ， 就 可 以 将 这 个 函数 应 用 到 数据 源 中 的 每 一 行 了 。 可 以 使 
用 map (clean_row，reader)， 或 者 编写 一 个 包含 这 个 处 理 循环 的 函数 : 


def cleanse (reader): 
for row in reader: 
yield clean_ row (row) 


以 下 代码 可 以 用 于 从 每 行 中 提供 更 有 用 的 数据 : 


with data path.open() as data_file: 
data_reader = csv.DictReader (data_file) 
clean_ data_reader = cleanse(data_reader) 
for row in clean data reader: 
pprint (row) 


注入 cleanse() 函数 来 创建 一 个 非常 小 的 转换 规则 栈 。 该 栈 以 data_reader 开头 , 但 是 栈 内 只 
有 一 个 元 素 。 这 是 一 个 好 的 开始 。 随 着 应 用 软件 的 不 断 扩 充 ， 它 将 会 进行 更 多 的 计算 ,转换 规则 栈 也 
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将 进一步 扩展 。 
经 过 清洗 和 充实 的 行 如 下 所 示 : 


{atess 20T2 -2 
ats 1133293241666666667 7 
'Jat_n': 32.8321666666667, 








"Ton .7959338333333333, 
"Ton- ni ~7959338333333333, 
"time “(0915500. 


'timestamp': datetime.datetime(2012, 11, 27, 9, 15), 
'ts_date': datetime.date(2012, 11, 27), 
'ts time': datetime.time(9, 15)} 
我 们 添加 了 列 , 例如 lat_n 和 Ion_n, 它们 的 值 是 数值 而 不 是 字符 串 。 我 们 还 添加 了 timestamp 
列 ， 该 列 具 有 一 个 完整 的 日 期 时 间 值 ， 可 以 用 于 简单 计算 航 点 之 间 的 航行 时 间 。 

















9.5.5 ”延伸 阅读 


口 关于 处 理 流水 线 或 处 理 栈 概念 的 更 多 信息 ， 请 参阅 8.7 节 。 
口 关于 处 理 不 满足 第 一 范式 的 CSV 文件 的 更 多 信息 ， 请 参阅 4.4 节 和 8.3 节 。 


9.6 ”使 用 正则 表达 式 读 取 复杂 格式 


午 多 文件 格式 缺乏 CSV 文件 的 优雅 规则 。Web 服务 器 日 志文 件 就 是 一 种 难以 解析 的 常见 文件 格 
式 ， 这 些 文件 往往 包含 复杂 的 数据 ， 却 没有 单一 的 分 隔 符 或 者 一 致 的 引号 规则 。 
8.2 节 曾 经 处 理 过 一 个 简化 的 日 志文 件 ， 其 内 容 如 下 所 示 : 


[2016-05-08 11:08:18,651] INFO in ch09_r09: Sample Message One 
[2016-05-08 11:08:18,651] DEBUG :in ch09 r09: Debugging 
[2016-05-08 11:08:18,652] WARNING in ch09 r09: Something might have gone wrong 


这 个 文件 中 使 用 了 多 种 标点 符号 ，csv 模块 无 法 处 理 这 种 复杂 情况 。 
如 何 用 CSV 文件 优雅 简单 的 方式 处 理 这 种 数据 ?能 否 将 这 些 不 规则 的 行 转换 为 更 规则 的 数据 
结构 ? 


9.6.1 准备 工作 


解析 结构 复杂 的 文件 通常 需要 编写 一 个 类 似 于 csv 模块 中 reader () 函数 的 函数 ,在 某 些 情况 下 ， 
创建 一 个 类 似 于 DictReader 类 的 类 更 容易 。 
读 取 器 的 核心 功能 是 一 个 函数 ， 将 一 行文 本 转换 为 单个 字段 值 的 字典 或 元 组 。 通 常 可 以 通过 re 
包 完 成 这 个 任务 。 
在 开始 编写 函数 之 前 ,需要 开发 ( 并 调试 ) 正确 解析 输入 文件 中 每 一 行 的 正则 表达 式 。 有 关 正 则 
达 式 的 更 多 信息 ， 请 参阅 1.7 节 。 
本 实例 将 使 用 以 下 代码 。 我 们 将 为 行 的 各 种 元 素 定 义 一 个 模式 字符 串 ， 其 中 包含 一 系列 正则 表 
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达 式 。 
>>> import re 
>>> pattern text = (r'\[(\d+-\d+-\d+ \d+:\d+:\d+, \d+) \]' 
和 '\st(\w+)' 
'\stin' 
'\st([\w_\.]+):" 
'\s+t(.*)') 
>>> pattern = re.compile(pattern text) 




















T 


日 期 时 间 ( date-time ) 惟 由 各 种 数字 、 连 字符 、 冒 号 和 一 个 返 号 组 成 ， 并 被 [和 ] 包围。 我 们 必须 








使 用 \ [和 \] 避免 与 正则 表达 式 中 [和 ] 的 正常 含义 冲突 。 日 期 戳 的 后 面 是 严 寻 









































性 级 别 ， 这 是 一 组 字符 。 


in 可 以 忽略 ， 不 需要 () 来 捕获 匹配 的 数据 。 模 块 名 称 是 用 字符 类 \w 总 结 的 字符 串 序 列 ， 还 包含 _ 和 .。 









































模块 名 称 后 面额 外 的 字符 :也 可 以 忽略 。 最 后 ， 有 一 条 消息 延伸 到 行 尾 。 我 们 已 经 将 重要 的 数据 字符 

















串 包 囊 在 () 中 ， 这 样 就 可 以 将 它们 作为 正则 表达 式 处 理 的 一 部 分 来 捕获 。 





请 注意 ， 我 们 还 添加 了 \s+ 序 列 ， 这 样 是 为 了 静默 地 跳 过 任意 数量 类 似 空 格 的 字符 。 样 本 数据 好 






































像 全 部 都 使 用 一 个 空格 作为 分 隔 符 。 然 而 ， 在 匹配 空白 时 ， 使 用 \s+ 似 乎 是 一 种 更 通用 的 方法 ， 因 为 








它 允 许 有 和 多余 的 空格 。 
这 种 模式 的 使 用 效果 如 下 所 示 : 








>>> sample data = '[2016-05-08 11:08:18,651] INFO in ch09 r09: 


>>> match = pattern.match(sample data) 
>>> match.groups() 
('2016-05-08 11:08:18,651', 'INFO', 'ch09 _r09', 

















我 们 提供 了 一 行 样 本 数据 。 匹 配对 象 match 的 groups () 方 法 可 以 返回 每 个 字段 。 可 以 使 用 
(?P<name>. . .) 代 替 简 单 的 (. . .) ， 将 字段 内 容 转 换 为 带 命名 字段 的 字 遇 

















9.6.2 ”实战 演练 











Sample Message One' 


'Sample Message One') 








本 实例 分 为 两 个 部 分 : 定义 单个 行 的 解析 函数 ， 将 解析 函数 应 用 于 每 行 输入 。 


1. 定义 解析 函数 
执行 以 下 步 又 定义 解析 函数 。 
(1) 定义 编译 过 的 正则 表达 式 对 象 。 


import re 





pattern text = (r'\[(?P<date>\d+-\d+-\d+ \d+:\d+:\d+, \d+) \]' 


'\s+(?P<level>\w+)' 
'\s+in\s+(?P<module>[\w_\.]+):" 
'\s+(?P<message>.*)') 

pattern = re.compile(pattern text) 
































使 用 (?P<name>. . . ) 正则 表达 式 结构 为 捕获 的 每 个 组 提供 名 称 ,得 到 的 字典 将 与 csv.DictReaaer 的 结 





果 相 同 。 
(2) 定义 接受 一 行文 本 作为 参数 的 函数 。 


def 1og_parser(source_1ine) : 
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(3) 应 用 正则 表达 式 ， 创 建 一 个 匹配 对 象 。 把 该 对 象 赋值 给 match 变量 


match = pattern.match (source_ line) 




















(4) 如 果 匹 配对 象 为 None， 则 该 行 不 匹配 模式 ， 可 能 被 静默 地 跳 过 。 在 一 些 应 用 程序 中 ， 应 该 


以 某 种 方式 记录 ， 以 提供 有 助 于 调试 或 改进 应 用 程序 的 信息 。 为 无 法 解析 的 输入 行 抛 出 异常 也 是 有 
意义 的 。 









































if match is None: 
raise ValueError ( 
"Unexpected input {0!r}".format (source_ line)) 


(5) 从 输入 行 返 回 一 个 有 用 的 数据 结构 。 


return match.groupdict() 


该 函数 可 用 于 解析 每 行 输入 。 文 本 将 被 转换 成 为 具有 字段 名 称 和 值 的 字典 
2. 使 用 解析 函数 
(1) 导入 csv 模块 和 Path 类 。 


import CSsV 


(2) 从 pathlip 导入 Pathcreate，Path 对 象 用 于 标识 文件 。 


data_path = Path('sample.1og') 


(3) 使 用 Path 对 象 在 witn 语句 中 打开 文件 。 


with data_ path.open() as data_ file: 


0 有 关 with 语句 的 更 多 信息 ， 请 参阅 9.3 节 。 


(4) 从 打开 的 文件 对 象 aata_file 创建 日 志文 件 解析 器 。 本 例 将 使 用 map () 把 解析 器 应 用 于 源 文 
件 中 的 每 一 行 。 


data_reader = map(1og_parser，dqata_file) 


(5) 读 取 ( 并 处 理 ) 各 行 数据 。 对 于 本 例 ， 处 理 只 是 简单 地 打印 各 行 数据 。 


for row in data_ reader: 
pprint (row) 


输出 是 一 系列 字典 ， 如 下 所 示 : 


{tate "ZO0L6=05-08 LL:O8L8 G65L5 
'Jevel': 'INFO', 

'message': 'Sample Message One', 
'module': 'ch09_r09'} 

'date': '2016-05-08 11:08:18,651', 
'Jevel': 'DEBUG', 

'message': 'Debugging', 

'module': 'ch09_r09'} 

vdate™ "20L6=05=08 T1088652" 3 









































一 
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'Jevel': 'WARNING', 
'message': 'Something might have gone wrong', 
'module': 'ch09_r09'} 


比 起 一 行 原 始 文本 ， 我 们 可 以 对 这 些 字典 做 更 多 有 意义 的 处 理 。 比 如 ， 按 严重 性 级 别 过 滤 数 据 ， 
或 者 基于 提供 消息 的 模块 创建 一 个 counter。 








9.6.3 ”工作 原理 


本 实例 所 使 用 的 日 志文 件 是 典型 遵循 第 一 范式 的 文件 。 数 据 被 组 织 为 代表 独立 实体 或 事件 的 行 。 
每 行 都 有 数量 一 致 的 属性 或 列 ， 每 列 都 有 不 能 进一步 分 解 的 原子 性 数据 。 与 CSV 文件 不 同 ， 该 文件 
的 格式 需要 使 用 复杂 人 

在 日 志文 件 示 例 中 ， 时 间 心 元素 一 一 年 、 月 、 日 、 小 时 、 分 钟 、 秒 和 毫秒 ， 但 是 
人 将 时 间 截 用 作 一 个 aatetime 对 象 可 能 更 有 帮助 ,我 们 应 当 
从 该 对 象 派生 详细 信息 ( 如 当天 的 时 间 )， 而 不 是 将 各 个 字段 组 合成 新 的 复合 数据 。 
在 复杂 的 日 志 处 理应 用 程序 中 ， 可 能 会 有 多 种 消息 字段 ， 需 要 使 用 不 同 的 模式 来 解析 这 些 消 息 类 
型 。 当 我 们 需要 这 样 做 时 ， 就 说 明日 志 中 的 不 同行 在 格式 和 属性 数量 上 是 不 一 致 的 ， 打 破 了 第 一 范式 
的 假设 。 
在 数据 不 一 致 的 情况 下 ， 我 们 不 得 不 创建 更 复杂 的 解析 器 ， 这 可 能 包括 复杂 的 过 滤 规 则 ， 以 分 离 

可 能 出 现在 Web 服务 器 日 志文 件 中 的 各 种 信息 。 这 可 能 涉及 解析 该 行 的 一 部 分 , 以 确定 使 用 哪个 正则 

表达 式 解析 该 行 的 其 余部 分 。 

本 实例 依赖 于 使 用 高 阶 函 数 map () 。map () 函数 将 10g_parse() 函数 应 用 于 源 文件 的 每 一 行 。 
这 种 直接 简单 性 保证 创建 的 数据 对 象 的 数量 将 精确 地 匹配 日 志文 件 中 的 行 数 。 

我 们 一 般 遵 循 9.5 节 中 的 设计 模式 ， 因 此 读 取 复杂 日 志 的 方式 几乎 与 读 取 简单 的 CSV 文件 相同 。 
实际 上 ， 主 要 区 别 在 于 一 行 代码 : 

data_reader = csv.DictReader (data_file) 
相 比 之 下 : 

data_reader = map(log_ parser, data_ file) 


这 种 平行 结构 可 以 让 我 们 在 多 种 输入 文件 格式 中 重用 分 析 函 数 。 我 们 也 可 以 创建 一 个 能 够 在 多 个 数据 
源 上 使 用 的 工具 库 。 












































































































































































































































9.6.4 ”补充 知识 


在 读 取 非常 复杂 的 文件 时 ， 最 常见 的 一 种 操作 是 将 复杂 的 格式 重 写 为 更 易于 处 理 的 格式 。 我 们 经 
党 大 名 将 数据 保存 为 CBV 格式 ， 以 条 随后 处 理 ， 

本 实例 有 些 类 似 于 9.12 节 ， 也 显示 了 多 个 打开 的 上 下 文 。 我 们 将 首先 读 取 一 个 文件 ,然后 写 人 另 
一 个 文件 。 

文件 写 人 处 理 如 下 所 示 : 
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import csy 
data_ path = Path('sample.1og') 
target_ path = data path.with suffix('.csv') 
with target path.open('w', newline='') as target_ file: 
writer = csv.DictWriter!( 
target_file, 
['date', 'level', 'module', 'message'] 
) 


writer.writeheader() 


with data_ path.open() as data_ file: 
reader = map(log_parser, data_ file) 
writer.writerows (reader) 


该 脚本 的 第 一 部 分 定义 了 一 个 给 定 文 件 的 CSV 写 和 信 右 ( writer )。 输 出 文件 的 路 径 target_path 
基于 输入 名 称 aata_path。 后 缀 从 原始 文件 名 的 后 缀 更 改 为 .csv。 
该 文件 打开 时 ， 通 过 newline=' ' 选 项 关闭 了 换行 符 。 这 将 允许 csv.Dictwriter 类 插入 适合 
于 所 需 CSV 方言 的 换行 符 。 
创建 一 个 Dictwriter 对 象 写 和 指定 的 文件 。 我 们 提供 了 一 个 列 标题 序列 。 这 些 标题 必须 与 用 于 
各 每 行 写 人 文件 的 键 匹配 。 我 们 可 以 看 到 这 些 标 题 匹 配 生成 数据 的 正则 表达 式 的 (?P<name>. . . ) 部 分 。 
writeheader () 方 法 将 列 名 称 作为 输出 的 第 一 行 。 这 样 读 取 文 件 就 稍微 容易 一 些 , 因为 提供 了 列 
名 。CSV 文件 的 第 一 行 可 以 是 一 种 显 式 的 模式 定义 ， 这 种 模式 定义 说 明了 文件 存在 哪些 数据 。 
打开 源 文件 ， 如 上 述 实 例 所 示 。 由 于 csv 模块 写 人 器 的 工作 方式 ， 我 们 可 以 为 写 人 器 的 
writerows () 方 法 提供 reader () 生成 器 男 数 。writerows () 方 法 将 使 用 由 reagder () 函数 产生 的 所 
有 数据 。 由 打开 的 文件 生成 的 所 有 行将 依次 被 使 用 。 
需要 编写 任何 显 式 的 for 语句 来 确保 处 理 了 所 有 输入 行 , writerows () 函数 提供 了 这 个 保证 。 
输出 文件 如 下 所 示 : 
date,level,module,message 
"2016-05-08 11:08:18,651", INFO, ch09_r09, Sample Message One 9 
"2016-05-08 11:08:18,651",DEBUG,ch09_r09,Debugging 
"2016-05-08 11:08:18,652",WARNING, ch09_r09,Something might have gone wrong 


该 文件 已 经 从 复杂 的 输入 格式 转换 为 了 更 简单 的 CSV 格式 。 
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9.6.5 延伸 阅读 


口 8.2 节 介绍 了 这 种 日 志 格式 的 其 他 处 理 过 程 。 
口 9.5 节 介 绍 了 使 用 这 种 常用 设计 模式 的 其 他 应 用 程序 。 
口 9.10 节 和 9.11 节 将 讨论 更 复杂 的 处 理 技术 。 


9.7 读 取 JSON 文档 


用 于 序列 化 数据 的 JSON 格式 非常 流行 。 更 多 详细 信息 ， 请 参阅 http://json.org。Python 的 json 
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模块 使 用 JSON 格式 序列 化 和 反 序 列 化 数据 。 

JavaScript 应 用 程序 广泛 使 用 JSON 文档 。 在 基于 Python 的 服务 器 和 基于 JavaScript 的 客户 端 之 间 
使 用 JSON 文档 交换 数据 是 很 常见 的 。 这 个 两 层 的 应 用 程序 架构 通过 HITP 协议 发 送 JSON 文档 进行 
通信 。 有 趣 的 是 ， 数 据 持久 层 也 可 能 使 用 HTTP 协议 和 JSON 文档 。 

如 何 使 用 json 模块 解析 Python 中 的 JSON 数据 ? 


9.7.1 准备 工作 


我 们 收集 了 一 些 帆船 比赛 结果 ， 将 其 存放 在 race_resultjson 中 。 该 文件 包含 队伍 、 赛 程 和 各 个 队 
伍 完成 比赛 的 顺序 等 相关 信息 。 
当 船 没有 开始 比赛 、 没 有 完成 比赛 或 被 取消 比赛 资格 时 ， 会 出 现 空 值 (null )。 在 这 些 情况 下 ， 完 
成 位 置 的 得 分 比 前 一 个 位 置 多 一 分 。 如 果 有 7 艘 船 ， 那 么 这 个 队 就 有 8 分 。 这 是 一 个 巨大 的 惩罚 。” 
该 数据 的 模式 如 下 所 示 。 整 个 文档 有 两 个 字段。 
口 1egs: 显示 起 始 港口 和 结束 港口 的 字符 串 数 组 。 
口 teams: 包含 每 个 队伍 详细 信息 的 对 象 数 组 。 在 每 个 队伍 对 象 中 ,包含 以 下 数据 字段 。 
name: 队伍 名 称 字符 串 。 
四 position: 表示 位 置 的 整数 或 null 组 成 的 数组 。 该 数组 中 的 元 素 顺序 匹配 1egs 数组 中 的 
元 素 顺 序 。 
数据 如 下 所 示 : 
{ 


"teams": [ 
{ 
"name": "Abu Dhabi Ocean Racing", 
DosSitiony: | 






































































































































ON POND 


] 
}, 


3 

"Jegs": |[ 
"ALICANTE - CAPE TOWN", 
"CAPE TOWN - ABU DHABI", 
"ABU DHABI - SANYA", 
"SANYA - AUCKLAND", 


@) 帆船 比赛 积分 越 低 成 绩 越 好 。 一 一 译 者 注 
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"AUCKLAND - ITAJANu00cd'"， 
"ITAJAAu00cd - NEWPORT", 
"NEWPORT - LISBON", 
"LISBON - LORIENT", 
"LORIENT - GOTHENBURG" 





] 
} 


上 述 数据 只 显示 了 第 一 支队 伍 ， 在 这 场 比 赛 中 共有 7 支队 伍 。 

JSON 格式 的 数据 看 起 来 像 一 个 包含 列表 的 Python 字典 。Python 语法 和 JSON 语法 之 间 的 这 种 重 
县 可 以 被 认为 是 一 种 巧合 : 可 以 更 容易 地 显示 从 JSON 源 文档 构建 的 Python 数据 结构 。 

并 不 是 所 有 JSON 结构 都 是 Python 对 象 。 有 趣 的 是 , JSON 文档 有 一 个 可 以 映射 到 Python 的 None 
对 象 的 空 元 素 (null )， 它 们 的 意思 类 似 ， 但 语法 不 同 。 

此 外 ,数据 中 的 一 个 字符 串 包含 Unicode 转 义 序列 \u00cd， 而 不 是 实际 的 Unicode 字符 f。 这 是 


Lo/ A 


一 种 常见 的 技术 ， 用 于 编码 128 个 ASCII 字符 以 外 的 字符 。 
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9.7.2 ”实战 演练 
(1) 导入 json 模块 。 


>>> import json 
(2) 定义 一 个 标识 待 处 理 文 件 的 Path 对 象 。 


>>> from pathlib import Path 
>>> source path = Path("code/race result.json") 


json 模块 目前 并 不 直接 使 用 Path 对 象 。 因 此 ， 读 取 内 容 作为 文本 对 象 并 处 理 该 文本 对 象 。 

(3) 通过 解析 JSON 文档 创建 一 个 Python 对 象 。 

>>> document = json.loads(source path.read text() ) 

我 们 使 用 source_path.read_text () 读 取 由 Path 命名 的 文件 ,然后 将 这 个 字符 串 提 供给 json . 
loads () 函数 进行 解析 。 

解析 文档 并 创建 一 个 Python 字典 之 后 ， 就 可 以 看 到 数据 的 各 个 部 分 。 例 如 ，teams 字段 包含 每 
支队 伍 的 所 有 结果 。 该 结果 是 一 个 数组 ， 数 组 中 下 标 为 0 的 元 素 是 第 一 支队 伍 。 
每 支队 伍 的 数据 都 将 是 一 个 具有 name 键 和 position 键 的 字典 。 可 以 组 合 各 种 键 以 获得 第 一 文 
队伍 的 名 字 : 


>>> document['teams'] [0] ['name'] 
'Abu Dhabi Ocean Racing' 


还 可 以 通过 legs 字段 查看 比赛 的 每 一 个 赛程 的 名 字 : 


>>> document ['legs'] [5] 
'ITAJAf - NEWPORT 


请 注意 ，JSON 源 文件 包含 一 个 Unicode 转 义 序列 '\u00cg'。 该 转 义 序列 被 正确 解析 ，Unicode 
输出 显示 了 正确 的 工 字 符 。 
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9.7.3 工作 原理 





JSON 文档 是 使 用 JavaScript 对 象 表示 法 (JavaScript Object Notation ) 的 数据 结构 。JavaScript 程 
序 可 以 轻松 地 解析 JSON 文档 ， 其 他 语言 必须 经 过 更 多 处 理 才 能 将 JSON 转换 为 原生 数据 结构 








JSON 文档 包含 3 种 结构 。 


口 对 象 ， 对 应 Python 字典 : JSON 具有 类 似 于 Python 的 语法 ，{ "key": 
不 同 的 是 , JSON 只 使 用 "作为 字符 串 引 号 。JSON 标记 不 允许 在 字典 值 的 结尾 有 一 个 额外 的 ,。 





除 此 之 外 ， 两 种 表示 方法 是 相似 的 。 











"value"}。 与 


























允许 在 数组 值 的 末尾 有 额外 的 ，。 














口 数组 ， 对 应 Python 列表 : JSON 语法 使 用 [item，.. 


口 原始 值 : 包含 5 类 值 (字符 串 、 数 、true、false 和 null )。 字 符 唱 
Python 类 似 的 各 种 \escape 序列 。 数 遵循 浮 点 值 的 规则 。 














Python 的 True、False 和 None 字面 量 类 似 。 
JSON 没有 再 规定 任何 其 他 类 型 的 数据 。 这 意味 着 Python 程序 必须 将 复杂 的 Python 对 象 转换 为 更 





简单 的 表示 形式 ， 以 便 可 以 用 JSON 格式 序列 化 。 











相反 ， 我 们 经 常 应 用 其 他 转换 从 简化 的 JSON 表示 


























功能 可 以 对 简单 的 结构 应 用 附加 的 处 理 ， 来 创建 更 复杂 的 Python 对 象 。 








9.7.4 补充 知识 





一 般 来 说 ， 一 个 JSON 文件 只 包含 一 个 JSON 文档 。JSON 标准 没有 提供 
































lB 被 包围 在 "中 并 








[e) 


Python 


. ] 表示， 看 起 来 很 像 Python。JSON 不 





使 用 与 








其 他 3 个 值 是 简单 的 字面 量 ， 与 

















E 单 个 文件 中 编 

















! 重 建 复杂 的 Python 对 象 。json 模块 的 一 些 


码 多 个 








文档 的 简单 方法 。 例 如 ， 如 果 要 分 析 一 个 Web 日 志 , 那么 JSON 可 能 不 是 保存 大 量 信息 的 最 佳 格式 。 











我 们 还 经 常 需要 解决 另外 两 个 问题 。 
口 序列 化 复杂 对 象 ， 以 便 写 和 文件。 
口 从 文件 中 读 取 的 文本 反 序 列 化 复杂 对 象 。 











当 Python 对 象 的 状态 被 表示 为 文本 字符 的 字符 中 


Python 对 象 需要 保存 在 文件 中 或 者 传输 到 另 一 个 处 理 





中 。 这 些 转移 需要 使 








将 分 别 介绍 序列 化 和 反 序 列 化 。 
1. 序列 化 复杂 的 数据 结构 




















时 ， 我 们 就 序列 化 ( serialize ) 了 该 对 象 。 许 多 
用 对 象 状 态 的 表示 。 本 实例 


我 们 也 可 以 通过 Python 数据 结构 创建 JSON 文档 。 因 为 Python 非常 精巧 灵活 ， 所 以 可 以 轻松 创 























建 那 些 不 能 用 JSON 表示 的 Python 数据 结构 。 














如 果 创 建 的 Python 对 象 只 限于 简单 的 aict 、list 、str、 











int、float 、bool 和 None 值 , 那 


么 将 它们 序列 化 为 JSON 的 效果 最 好 。 如 果 我 们 足够 谨慎 ， 就 可 以 构建 能 快速 序列 化 的 对 象 ， 并 可 以 


被 用 不 同 语言 编写 的 程序 广泛 使 用 。 























这 些 类 型 的 值 都 不 涉及 Python set 或 其 他 类 定义 。 这 意味 着 我 们 需要 将 复杂 的 Python 对 象 转换 














为 字典 ， 以 便 在 JSON 文档 中 表示 。 














例如 ， 假 设 我 们 分 析 了 一 些 数据 并 创建 了 一 个 counter 对 象 : 
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>>> import random 

>>> random.seed(1) 

>>> from collections import Counter 

>>> colors = (["red"]*18)+(["black"]*18)+(["green"]*2) 

>>> data = Counter (andom.choice(colors) for _ in range(100)) 

Because this data is - effectively - a dict, we can serialie this very easily into JSON: 
>>> print (json.dumps (data, sort_ keys=True, indent=2)) 

{ 


"black": 53, 
"green": 7, 
"red": 40 


} 

我 们 以 JSON 格式 转 储 了 数据 ， 并 按键 的 顺序 排列 ， 这 样 就 保证 了 一 致 的 输出 。 人 参数 indqent=2 
则 使 每 个 {} 对 象 和 [数组 以 可 视 化 缩 进 的 形式 显示 ， 以 便于 查看 文档 的 结构 。 

可 以 使 用 相对 简单 的 操作 写 入 文件 : 


output path = Path("some path.json") 
output path.write text( 
json.dumps (data, sort keys=True, indent=2)) 


新 读 取 该 文档 时 , 不 会 从 JSON 加 载 操作 中 获取 一 个 counter 对 象 , 而 是 只 会 得 到 一 个 字典 实 
例 。 这 是 将 Python 复杂 对 象 简化 为 JSON 的 后 果 。 

datetime.datetime 对 象 是 一 种 不 容易 序列 化 的 常用 数据 结构 。 尝 试 序列 化 该 对 象 的 结果 如 下 
所 示 : 


>>> import datetime 
>>> example date = datetime.datetime(2014, 6, 7, 8, 9, 10) 
>>> document = {'date': example date} 


我 们 创建 了 一 个 只 有 单个 字段 的 简单 文档 。 该 字段 的 值 是 一 个 aatet ime 实例 。 当 我 们 尝试 将 其 
序列 化 为 JSON 格式 时 ， 会 发 生 什么 情况 ? 


>>> json.dumps (document) 
Traceback (most recent call last): 

















[dll 






































De ro datetime.datetime(2014, 6, 7, 8, 9, 10) is not JSON serializable 

上 述 代 码 表 明 无 法 序列 化 的 对 象 将 抛 出 TypeError 异常 。 避 免 这 种 异常 的 方法 有 两 种 : 在 构建 
文档 之 前 转换 数据 ， 或 者 在 JSON 序列 化 处 理 中 添加 一 个 钧 子 (hook )。 

一 种 序列 化 复杂 数据 的 技术 可 以 将 aatetime 对 象 转换 为 字符 串 ， 然 后 将 其 序列 化 为 JSON: 


>>> document_converted = {'date': example date.isoformat()} 
>>> json.dumps (document_ converted) 
'{"date": "2014-06-07T08:09:10"}"' 


上 述 代码 使 用 ISO 格式 的 日 期 创建 可 序列 化 的 字符 串 。 读 取 该 数据 的 应 用 程序 可 将 字符 串 转 换 回 
datetime 对 象 。 

男 一 种 技术 是 ,提供 一 个 在 序列 化 过 程 中 自动 使 用 的 默认 函数 。 该 函数 必须 将 复杂 对 象 转换 为 可 
以 安全 序列 化 的 对 象 。 它 通常 会 创建 一 个 由 字符 串 和 数值 组 成 的 简单 字典 ,也 可 能 创建 一 个 简单 的 字 
符 串 值 : 
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>>> def default_ date(object): 
if isinstance(object, datetime.datetime): 
return example date.isoformat() 
return object 


我 们 定义 了 aefault_qate() 函数 ， 该 函数 将 特殊 转换 规则 应 用 于 aatetime 对 象 。 这 些 
datetime 对 象 将 被 转换 为 可 以 被 json .dumps () 函数 序列 化 的 字符 串 对 象 。 
使 用 aefault 参数 将 该 函数 提供 给 aumps () 函数 ， 如 下 所 示 : 


>>> document = {'date': example date} 
>>> print( 
json.dumps (document, default=default date, indent=2)) 





{ 
"date": "2014-06-07T08:09:10" 
} 


在 任何 给 定 的 应 用 程序 中 ， 都 需要 扩展 该 函数 来 处 理 我 们 希望 以 JSON 格式 序列 化 的 复杂 Python 
对 象 。 如 果 面 对 大 量 复杂 的 数据 结构 ， 那么 通常 需要 一 个 更 通用 的 解决 方案 ， 而 不 是 将 每 个 对 象 转换 
为 可 序列 化 的 对 象 。 许 多 设计 模式 都 可 以 添加 类 型 信息 以 及 对 象 状态 的 序列 化 细节 。 

2. 反 序 列 化 复杂 的 数据 结构 

当 反 序列 化 JSON 来 创建 Python 对 象 时 ， 可 以 使 用 另 一 个 钩子 将 JSON 字典 中 的 数据 转换 为 更 复 
林 的 Python 对 象 。 这 个 钩子 名 为 object_hook， 将 在 json.1loads () 处 理 过 程 中 使 用 ， 用 于 检查 每 
个 复杂 对 象 是 否 应 该 从 该 字典 创建 其 他 内 容 。 

我 们 提供 的 函数 要 么 创建 一 个 复杂 的 Python 对 象 ， 要 么 只 留 下 该 字典 对 象 : 


>>> def as_date(object): 
if 'date' in object: 
return datetime.datetime.strptimel( 
object['date'], '%Y-%m-%dT%H:%M:%S') 
return object 


该 函数 将 检查 被 解码 的 每 个 对 象 ， 查 看 其 是 否 有 一 个 名 称 为 aate 的 字段 。 如 果 有 ， 那 么 整个 对 
象 的 值 将 被 替换 为 一 个 datetime 对 象 。 
我 们 为 json . loads () 函数 提供 一 个 函数 ， 如 下 所 示 : 


>>> source= '''{"date": "2014-06-07T08:09:10"}''"!' 
>>> json.loads (source, object hook=as_ date) 
datetime.datetime(2014, 6, 7, 8, 9, 10) 


上 述 代码 解析 了 一 个 很 小 的 JSON 文档 ， 该 文档 包含 aate， 符 合 我 们 设 定 的 条 件 。JSON 序列 化 
中 的 字符 串 值 构建 了 最 终 的 Python 对 象 。 
在 更 广阔 的 情景 中 ， 上 述 处 理 日 期 的 特殊 示例 不 是 很 理想 。 如 果 存 在 一 个 'aate ' 字 段 来 表示 日 
期 对 象 ， 可 能 会 导致 使 用 as_qate () 函数 反 序 列 化 复杂 对 象 的 问题 。 

更 常用 的 方法 可 能 会 使 用 一 些 非 Python 的 技术 , 比如 '$dqate'。 另 一 个 功能 将 确认 特殊 表示 是 否 
是 该 对 象 的 唯一 键 。 当 满足 这 两 个 条 件 时 ， 就 可 以 对 该 对 象 进行 特殊 处 理 。 

我 们 也 可 能 希望 设计 应 用 程序 类 ,以 提供 其 他 方法 来 帮助 序列 化 ,一 个 类 可 能 包含 一 个 to_json () 
方法 ， 它 将 以 统一 的 方式 序列 化 对 象 。 该 方法 会 提供 类 的 信息 ， 它 可 以 避免 序列 化 任何 派生 属性 或 计 
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算 特 性 。 类 似 地 ， 我 们 可 能 需要 提供 一 个 静态 from_json () 方 法 ， 用 来 确定 给 定 字典 对 象 是 否 是 给 
定 类 的 一 个 实例 。 


这 


9.7.5 延伸 阅读 
口 9.9 节 将 展示 使 用 HTML 源 代码 为 本 实例 准备 数据 的 方法 。 


9.8” 读 取 XML 文档 


XML 标记 语言 广泛 用 于 组 织 数据 。 有 关 XML 的 详细 信息 ， 请 参阅 http:/www.w3.org/TR/REC- 
xml/。Python 有 许多 用 于 解析 XML 文档 的 库 。 

XML 之 所 以 被 称 为 标记 语言 ， 是 因为 文档 内 容 由 <tag> 和 </tag> 结 构 标 记 ， 这 种 成 对 出 现 的 标 
记 定 义 了 数据 的 结构 。 整 个 文件 包括 文档 内 容 以 及 XML 标记 文本 。 

因为 标记 与 文本 混合 在 一 起 ， 所 以 必须 使 用 一 些 额 外 的 语法 规则 。 为 了 在 数据 中 包含 < 字符 ,我 
们 将 使 用 XML 字符 实体 引用 来 避免 混淆 。 为 了 能 够 在 文本 中 包含 <， 我 们 使 用 了 glt; 。 类 似 地 ， 用 
&gt ;来 代 奉 >， 用 xamp ;来 代替 x&， 用 squot ;在 属性 值 中 租 入 "。 

例如 ， 一 个 XML 文档 包含 以 下 元 素 : 


<team><name>Team SCA</name><position>...</position></team> 


大 多 数 XML 处 理应 用 程序 允许 XML 中 存在 额外 的 \n 和 空格 ， 因 为 这 样 结构 会 更 加 明显 : 


<team> 
<name>Team SCA</name> 
<position>...</position> 
</team> 


标签 通常 围绕 着 内 容 。 整个 文档 形成 了 一 个 大 型 般 套 的 容器 集合 。 换 句 话说 , 文档 形成 了 一 棵 树 ， 
让 中 根 标签 包含 其 他 所 有 标签 及 其 艇 入 的 内 容 。 在 本 示例 中 ， 标 签 之 间 的 完全 空白 内 容 将 被 忽略 。 
使 用 正则 表达 式 解 析 XML 文档 是 非常 困难 的 。 我 们 需要 更 复杂 的 解析 器 来 处 理 髓 套 语法 。 
Python 内 置 的 xml .sax 和 xml .parsers .expat 可 以 利用 两 个 能 解析 XML-SAX 和 Expat 的 二 
进 制 库 。 
除 此 之 外 ,xml .etree 包 中 还 有 一 个 复杂 的 工具 集 。 本 实例 重点 使 用 ElementTree 模块 解析 和 
分 析 XML 文档 。 
如 何 使 用 xml .etree 模块 在 Python 中 解析 XML 数据 ? 


9.8.1 准备 工作 


我 们 收集 了 一 些 帆船 比赛 结果 ， 将 其 存放 在 race_result.xml 中 ， 该 文件 包含 队伍 、 赛 程 和 各 个 队 
伍 完成 比赛 的 顺序 等 相关 信息 。 

当 船 没有 开始 比赛 、 没 有 完成 比赛 或 被 取消 比赛 资格 时 ， 会 出 现 空 值 (null )。 在 这 些 情况 下 ， 完 
成 位 置 的 得 分 比 前 一 个 位 置 多 一 分 。 如 果 有 7 稻 船 ， 那 么 这 个 队 就 有 8 分。 这 是 一 个 巨大 的 惩罚 。 
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根 标签 是 <results> 文 档 ， 该 文档 具有 以 下 模式 。 
口 <1egs> 标 签 包 含 命名 比赛 每 一 个 赛程 的 <1eg> 标 签 。 在 文本 中 ， 赛 程 的 名 称 包 含 一 个 起 始 港 
口 和 一 个 结束 港口 。 
口 <teams> 标 签 包含 许多 <team> 标 签 以 及 每 个 队伍 的 详细 信息 。 每 个 队伍 信息 内 部 都 包含 用 标 
签 组 织 的 数据 结构 。 
晶 <name> 标 签 包含 队伍 的 名 称 。 
时 <position> 标 签 包 含 许多 <1eg> 标 签 以 及 给 定 赛 程 的 完成 位 置 。 每 个 赛程 都 已 编号 ， 编 号 
匹配 <legs> 标 签 中 的 赛程 定义 。 






































数据 如 下 所 示 : 
<?xm] version="1.0"?> 
<results> 
<teams> 
<team> 
<name> 
Abu Dhabi Ocean Racing 
</name> 
<position> 
<leg n="1"> 
业 
</leg> 
eg ls. 
3 
</leg> 
<leg n="3"> 
2 
</leg> 
<leg n="4"> 
2 
</leg> 
<leg n="5"> 
1 
</leg> 
SNe a 
2 
</leg> 
<leg n="7"> 
5 
</leg> 
<leg n="8"> 
3 
</leg> 
<leg n="9"> 
3 
</leg> 
</position> 
</team> 
</teams> 


<legs> 
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人 

</results> 

上 述 数据 只 显示 了 第 一 支队 伍 ， 在 这 场 比 赛 中 共有 7 支队 伍 。 

在 XML 文档 中 ， 应 用 程序 数据 出 现在 两 种 位 置 。 一 种 位 置 是 标签 之 间 。 例 如 <name>Abu Dhabi 
Ocean Racing</name>。<name> 是 标签 ，<name> 和 </name> 之 间 的 文本 是 该 标签 的 值 。 

此 外 ， 数 据 还 可 以 作为 标签 的 属性 。 例 如 ， 在 <leg n="1"> 中 ，<1leg> 是 标签 ， 该 标签 有 一 个 属 
性 n， 值 为 1。 一 个 标签 可 以 具有 不 定数 量 的 属性 。 

<leg> 标 签 包 括 赛 程 编 号 属性 n， 以 及 以 标签 内 文本 形式 给 出 的 队伍 在 赛程 中 的 位 置 。 常 用 的 方 
法 是 把 重要 的 数据 放 在 标签 内 ， 补 充 或 澄清 的 数据 放 在 属性 中 。 两 种 规则 之 间 的 界限 非常 模糊 。 

XML 人 允许 使 用 混合 内 容 模型 ( mixed content model )。 这 种 模型 反映 了 XML 与 文本 混合 的 情况 ， 
XML 标签 的 内 部 和 外 部 都 会 有 文本 。 混 合 内 容 的 示例 如 下 : 

<p>This has <strong>mixed</strong> content.</p> 

有 些 文本 在 <p> 标 签 内 部 ， 有 些 文本 在 <strong> 标 签 内 部 。<p> 标 签 的 内 容 是 文本 和 标签 的 
混合 。 

我 们 将 使 用 xml .etree 模块 解析 数据 ， 这 涉及 从 文件 读 取 数 据 并 将 数据 提供 给 解析 器 。 最 终 得 
到 的 文档 将 非常 复杂 。 

我 们 没有 为 示例 数据 提供 正式 的 模式 定义 ， 也 没有 提供 文档 类 型 定义 ( document type definition， 
DTD )。 所 以 XML 默认 为 混合 内 容 模式 ， 而 且 不 能 根据 模式 或 DID 验证 XML 结构 。 
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9.8.2 ”实战 演练 
(1) 本 实例 需要 使 用 xml .etree 模块 和 pathlib 模块 。 


>>> import xml .etree.ELementTree as XML 
>>> from pathlib import Path 


为 了 便于 输入 ,将 ElementTree 模块 的 名 称 改 为 XML， 也 可 以 将 其 重 命名 为 ET。 
(2) 定义 查找 源 文 档 的 Path 对 象 。 


>>> source path = Path("code/race_reSuUlt .xm1") 


(3) 通过 解析 源 文件 创建 文档 的 内 部 ElementTree 版 本 。 


>>> source text = source path.read text (encoding='UTF-8') 
>>> document = XML.fromstring(source text) 


XML 解析 器 不 能 轻易 地 直接 处 理 Path 对象。 我 们 选择 从 Path 对 象 读 取 文本 , 然后 再 解析 文本 。 
获取 文档 内 容 后 ， 就 可 以 搜索 相关 的 数据 片段 了 。 本 例 使 用 fina () 方 法 查找 给 定 标签 的 第 一 个 
实例 : 


>>> teams = document .find('teams') 

>>> name = teams.find('team').find('name') 
>>> name.text.strip() 

'Abu Dhabi Ocean Racing' 
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我 们 先 找到 了 <teams> 标 签 ， 然 后 在 该 列表 中 找到 <team> 标 签 的 第 一 个 实例 。 在 该 <team> 标 签 
中 ， 找 到 了 第 一 个 <name> 标 签 ， 获 取 了 队伍 名 称 的 值 。 

因为 XML 是 一 种 混合 内 容 模 型 ， 所 以 文档 内 容 中 所 有 的 \n、\t 和 空格 字符 都 被 保存 在 数据 
我 们 很 少 需要 这 些 空白 内 容 , 使 用 strip() 方 法 删除 重要 内 容 前 后 所 有 无 关 的 字符 十 分 有 意义 


9.8.3 工作 原理 


XML 解析 器 模块 基于 文档 对 象 模型 ( document object model，DOM ) 将 XML 文档 转换 为 相当 复杂 
的 对 象 。 在 使 用 etree 模块 的 情况 下 ， 文 档 由 通常 代表 标签 和 文本 的 Element 对 象 构建 。 

XML 的 规则 还 包含 处 理 指令 和 注释 ，XML 处 理应 用 程序 通常 忽略 这 些 内 容 。 

XML 解析 器 通常 具有 两 个 操作 级 别 。 对 于 低 操 作 级 别 ， 解 析 器 识别 事件 。 解 析 器 发 现 的 事件 包 
括 元 素 开始 、 元 素 结束 、 注 释 开 始 、 注 释 结束 、 长 文本 以 及 相似 的 词汇 对 象 。 对 于 高 操作 级 别 ， 这 些 
事件 用 于 构建 文档 的 各 种 Element。 

每 个 Element 实例 都 有 一 个 标签 、 文 本 、 属 性 和 尾 字 符 串 ( tail )。 标签 是 <tag> 中 的 名 称 。 属 性 
是 标签 名 称 后 面 的 字段 。 例 如 ，<leg n="1"> 标 签 具有 标签 名 称 leg 和 名 为 n 的 属性 。 在 XML 中 ， 
属性 值 始终 是 字符 串 。 

文本 包含 在 标签 的 起 始 标签 和 闭合 标签 之 间 。 因 此 , 在 标签 <name>Team SCA</name> 中 , "Team 
SCA "为 Element 的 text 属性 的 值 ， 该 Element 表示 <name> 标 签 。 

请 注意 ， 标 签 还 有 一 个 尾 字 符 串 属性 : 


<name>Team SCA</name> 
<position>...</position> 


在 闭合 标签 </name> 和 起 始 标签 <position> 之 间 有 一 个 \n 字符 。 这 就 是 <name> 标 签 的 尾 字符 
串 。 在 使 用 混合 内 容 模型 时 , 尾 字 符 串 值 很 重要 。 在 使 用 非 混 合 内 容 模型 时 , 尾 字 符 串 值 一 般 为 空白 。 
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9.8.4 补充 知识 


因为 不 能 将 XML 文档 简单 地 转换 为 Python 字典 ， 所 以 需要 一 种 搜索 文档 内 容 的 简便 方法 。 
ElementTree 模块 提供 了 一 种 搜索 技术 ， 这 种 技术 是 XML 路 径 语言 (XML path language，XPath ) 
的 部 分 实现 。XML 路 径 语言 用 于 确定 XML 文档 中 的 某 个 位 置 。XPath 给 我 们 带 来 了 很 大 的 灵 
活性 。 

XPath 查询 通常 与 find () 方 法 和 finqal1 () 方 法 一 起 使 用 。 查 找 所 有 名 称 的 方法 如 下 所 示 : 


>>> for tag in document.findall('teams/team/name'): 
print (tag.text.strip()) 

A Dhabi Ocean Racing 

Team Brunel 

Dongfeng Race Team 

MAPFRE 

Team Alvimedica 

Team SCA 

Team Vestas Wind 
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我 们 查找 了 顶层 的 <teams> 标 签 。 我 们 需要 该 标签 中 的 <team> 标 签 。 在 这 些 <team> 标 签 中 ， 我 
们 需要 <name> 标 签 。 上 述 代 码 将 搜索 该 般 套 标签 结构 的 所 有 实例 。 

我 们 也 可 以 搜索 属性 值 。 这 样 就 可 以 方便 地 找到 所 有 队伍 在 比赛 特定 赛程 中 的 位 置 。 在 每 个 队伍 
<position> 标 签 内 的 <leg> 标 签 中 就 可 以 找到 所 需 数 据 。 

此 外 ,每 个 <1eg> 标 签 都 有 一 个 属性 n 的 值 ， 该 值 显示 了 比赛 赛程 的 编号 。 使 用 属性 n 的 值 从 XML 
文档 中 提取 特定 数据 的 代码 如 下 所 示 : 


>>> for tag in document.findall("teams/team/position/leg[@n='8']"): 
print (tag.text.strip()) 



































DPAPAPRA 和 FW.: 











上 述 代 码 显 示 了 在 比赛 第 8 赛程 中 每 个 队伍 的 完成 位 置 。 我 们 找到 了 所 有 <1leg n="8"> 标 签 并 显 
示 了 标签 中 的 文本 。 用 这 些 文本 匹配 队伍 名 称 可 以 发 现 ， 在 这 个 赛程 中 ，Team SCA 第 一 个 完成 了 比 
赛 ，Dongfeng Race Team 最 后 一 个 完成 比赛 。 















































9.8.5 延伸 阅读 
口 9.9 节 将 展示 使 用 HTML 源 代码 为 本 实例 准备 数据 的 方法 。 


9.9 读 取 HTML 文档 


Web 上 的 大 量 内 容 都 是 使 用 HTML 标记 呈现 的 。 浏 览 器 非常 好 地 深 染 了 数据 。 如 何 解 析 这 些 数据 ， 
并 从 显示 的 网 页 中 提取 有 意义 的 内 容 ? 

可 以 使 用 标准 库 的 html .parser 模块 ,但 是 用 处 不 大 。 该 模块 只 能 提供 低级 词汇 扫描 信息 ， 不 
能 提供 描述 原始 网 页 的 高 级 数据 结构 。 

本 实例 将 使 用 Beautiful Soup 模块 解析 HTML 页 面 。 该 模块 可 以 通过 Python 包 索 引 ( python 
package index，PyPI ) 获得 。 请 参阅 https://pypi.python.org/pypi/beautifulsoup4。 

该 模块 必须 下 载 并 安装 才能 使 用 。 使 用 pip 命令 通常 能 很 好 地 做 到 这 一 点 。 

pip 命令 非常 简单 ， 如 下 所 示 : 

pip install beautifulsoup4 

对 于 Mac OSX 和 Linux 用 户 ， 需 要 使 用 sudo 命令 来 提升 用 户 权限 : 

sudo pip install beautifulsoup4 

该 命令 将 提示 输入 用 户 的 密码 。 用 户 必须 能 够 获得 root 权限 。 

在 极 少数 情况 下 ,计算 机 上 安装 了 多 个 版 本 的 Python ， 请 务必 使 用 匹配 版 本 的 pip。 在 某 些 情况 
下 ， 可 能 需要 使 用 以 下 命令 : 
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sudo pip3.5 install beautifulsoup4 


上 述 命令 使 用 了 Python 3.5 版 的 pip。 


9.9.1 准备 工作 


我 们 收集 了 一 些 帆船 比赛 结果 ， 将 其 存放 在 Volvo Ocean Race.html 中 ， 该 文件 包含 队伍 、 赛 程 和 
各 个 队伍 完成 比赛 的 顺序 等 相关 信息 。 这 些 数据 是 从 沃尔沃 海洋 赛 (Volvo Ocean Race ) 网 站 上 采集 
的 ， 在 浏览 器 中 打开 时 看 起 来 很 棒 。 

HTML 标记 与 XML 非常 相似 ,内容 由 <tag> 标 记 包 应 ,<tag> 标 记 显示 数 据 的 结构 和 表示 。HIML 
比 XML 先 出 现 ，XHTML 标准 协调 了 这 两 种 标记 。 但 是 ， 我 们 必须 兼容 较 旧 的 HIML ， 甚 至 没有 正 
确 结构 化 的 HTML。 不 完整 的 HTML 使 分 析 来 自 万 维 网 的 数据 变 得 非常 困难 。 

HTML 页 面 往往 包含 大 量 负 和 载 ， 比 如 代码 、 样 式 表 ， 以 及 不 可 见 的 元 数据 。 页 面 的 内 容 可 能 充斥 
着 广告 和 其 他 信息 。 通 常 ，HTML 页 面具 有 以 下 结构 : 


<html> 
<head>...</head> 
<body>...</body> 
</html> 


<head> 标 签 中 可 能 包含 JavaScript 库 的 链接 和 层 又 样式 表 ( cascading style sheet，CSS ) 文档 的 链 
接 。JavaScript 库 通常 用 于 提供 交互 功能 ， 层 县 样式 表 通 常用 于 定义 内 容 的 呈现 。 
网 页 的 大 部 分 内 容 都 在 <body> 标 签 中 。 许 多 网 页 提供 了 非常 复杂 的 内 容 。 网 页 设计 是 一 门 精妙 
的 艺术 ， 要 使 网 页 内 容 在 大 多 数 浏览 器 上 看 起 来 都 不 错 。 但 是 ， 跟 踪 网 页 上 的 相关 数据 可 能 很 困难 ， 
因为 网 页 设计 重点 关注 用 户 的 浏览 ， 而 不 是 自动 化 工具 的 处 理 。 
在 本 例 中 ,比赛 结果 在 一 个 HTML 的 <table> 标 签 中 , 很 容易 找到 。 页 面相 关内 容 的 整体 结构 如 
下 所 示 : 


<table> 
<thead> 
ET 
<th>...</th> 
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dm 














</tr> 
</thead> 
<tbody> 
he 
eds 


</ tr 
</tbody> 
</table> 


<thead> 标 签 包 含 表 格 的 列 标题 。 在 <thead> 标 签 中 ， 表 格 行 标签 <tr> 和 表格 标题 标签 <th> 包 
含 列 标题 的 内 容 。 内 容 有 两 部 分 。 基 本 显示 内 容 是 表示 比赛 每 一 个 赛程 的 数字 ， 这 是 标签 的 内 容 。 除 
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了 基本 显示 内 容 之 外 ， 还 有 一 个 由 JavaScript 函数 使 用 的 属性 值 。 当 光标 惹 停 在 列 标题 上 时 ， 将 显示 
该 属性 值 。JavaScript 函数 弹出 赛程 名 称 。 

<tbodqy> 标 签 包 括 队伍 名 称 和 每 场 比赛 的 结果 。 表 格 行 ( <tr> ) 包含 每 个 队伍 的 详细 信息 。 队 伍 
名 称 ( 以 及 图 形 和 总 体 排名 ) 显示 在 表格 数据 的 前 三 列 中 。 表 格 数据 的 剩余 列 包含 比赛 给 定 赛 程 的 完 
成 位 置 。 

由 于 帆船 比赛 的 相对 复杂 性 ， 某 些 表 格 数据 单元 格 包含 额外 的 注释 。 这 些 注释 作为 属性 添加 ,用 
于 为 单元 格 的 值 提 供 补 充 数据 。 在 某 些 情 况 下 ， 队 伍 没有 开始 一 个 赛程 ， 或 者 没有 完成 一 个 赛程 ,或 
者 从 赛程 中 退 赛 。 

HTML 中 的 一 个 典型 的 <tr> 行 如 下 所 示 : 


<tr class="ranking-item"> 













































































<td class="ranking-position">3</td> 
<td class="ranking-avatar"> 
<img src="..."> </td> 

<td class="ranking-team">Dongfeng Race Team</td> 

<td class="ranking-number">2</td> 

<td class="ranking-number">2</td> 

<td class="ranking-number">1</td> 

<td class="ranking-number">3</td> 

<td class="ranking-number" tooltipster data-></td> 

<td class="ranking-number">1</td> 

<td class="ranking-number">4</td> 

<td class="ranking-number">7</td> 

<td class="ranking-number">4</td> 

<td class="ranking-number total">33<span class="asterix">*</span></td> 
/七 
<tr> 标 签 包 含 一 个 定义 该 行 样式 的 class 属性 ,CSS 为 该 类 数据 提供 样式 规则 。 标 签 上 的 class 

















属性 可 以 帮助 数据 采集 应 用 程序 找到 相关 内 容 。 
<td> 标 签 也 包含 定义 数据 单元 格 样式 的 class 属性 。 在 本 例 中 , class 信息 说 明了 单元 格 的 内 容 。 
表格 中 有 一 个 单元 格 没有 内 容 ， 该 单元 格 有 一 个 aata-title 属性 ，JavaScript 函数 使 用 该 属性 
在 单元 格 中 显示 附加 信息 。 















































9.9.2 ”实战 演练 


(1) 导入 两 个 模块 ，bs4 和 pathlipb。 


>>> from bs4 import BeautifulSoup 
>>> from pathlib import Path 


我 们 只 从 bs4 模块 导入 了 BeautifulSoup 类 。 该 类 将 提供 解析 和 分 析 HTML 文档 所 需 的 所 有 
功能 。 
(2) 定义 一 个 命名 源 文档 的 Path 对 象 。 


>>> source path = Path("code/Volvo Ocean Race.html") 


(3) 从 HTML 内 容 创建 soup 结构 ， 并 将 其 赋 给 变量 soup。 
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>>> with source path.open(encoding='utf8') as source file: 
Soup = BeautifulSoup(source file, 'html .parser') 


我 们 使 用 上 下 文 管理 器 访问 文件 。 作 为 另 一 种 选择 ， 也 可 以 使 用 source_path.reagd_text 
(encodig='utf8') 简 单 地 读 取 文件 内 容 ， 这 也 为 Beautifulsoup 类 提供 了 一 个 打开 的 文件 。 
然后 , 处 理 soup 变量 中 的 soup 结构 来 查找 各 种 内 容 。 例如 , 可 以 提取 赛程 详细 信息 , 如 下 所 示 : 


def get_legs (soup) 
Jegs = [] 
thead = soup.table.thead.tr 
for tag in thead.find all('th'): 
if 'data-title' in tag.attrs: 
leg_description text = clean leg(tag.attrs['data-title']) 
legs.append (leg_description text) 
return legs 


表达 式 soup .table.thead.tr 先 找 到 第 一 个 <table> 标 签 。 然 后, 在 <table> 标 签 中 , 找到 第 一 个 
<thead> 标 签 。 最 后 ， 在 <thead> 标 签 内 ， 找 到 第 一 个 <tr> 标 签 。 我 们 将 找到 的 <tr> 标 签 赋值 给 变 
量 thead。 然 后 就 可 以 使 用 findqal1 () 方 法 在 此 容器 中 查找 所 有 <th> 标 签 了 。 

我 们 还 将 检查 每 个 标签 的 属性 来 查找 gata-title 属性 的 值 , data-title 属性 的 值 包 含 赛程 名 
称 信息 。 赛 程 名 称 内 容 如 下 所 示 : 


<th tooltipster data-title="<strong>ALICANTE - CAPE TOWN</STRONG>"data-theme= 
"tooltipster-shadow" data-htmlcontent="true" data-position="top">LEG 1</th> 


data-title 属性 的 值 包 括 值 内 的 一 些 附 加 HTML 标记 。 这 些 标记 不 是 标准 的 HTML ， 
BeautifulSoup 解析 器 不 会 在 属性 值 中 查找 这 些 内 容 。 
因为 需要 解析 HTML， 所 以 可 以 创建 一 个 soup 对 象 来 解析 这 段 文本 : 


def clean_ leg (text): 
leg_soup = BeautifulSoup(text, 'html .parser') 
return leg_soup.text 


我 们 从 aata-title 属 性 的 值 创建 了 一 个 BeautifulSoup 对 象 , 该 对 象 包含 关于 标签 <strong> 
的 信息 和 文本 。 我 们 使 用 text 属性 获取 所 有 文本 ， 不 包含 任何 标签 信息 。 


9.9.3 工作 原理 


BeautifulSoup 类 基于 文档 对 象 模型 将 HTML 文档 转换 为 复杂 的 对 象 。 所 生成 的 结构 由 Tag、 
NavigableString 和 Comment 类 的 实例 构建 。 

通常 , 我 们 对 包含 网 页 字符 串 内 容 的 标签 感 兴趣 。 这 些 标 签 是 Tag 类 和 Navigablestring 类 的 
对 象 。 


























































































































个 Tag 实例 都 有 一 个 名 称 、 字 符 串 和 属性 。 名 称 是 < 和 > 之 间 的 单词 ， 属 性 是 标签 名 称 后 面 的 字 
段 。 例 如 ，<ta class="ranking-number">1</td> 有 一 个 标签 名 称 ta 和 一 个 属性 名 称 class。 
值 通常 是 字符 串 , 但 在 少数 情况 下 ， 值 可 以 是 字符 串 列表 。Tag 对 象 的 字符 串 属性 是 标签 包围 起 来 的 
内 容 ， 在 本 例 中 ， 该 属性 的 值 是 一 个 非常 短 的 字符 串 1。 
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HTML 是 一 种 混合 内 容 模型 。 这 意味 着 标签 除了 导航 ( navigable ) 文本 之 外 还 可 以 包含 子 标签 。 
文本 是 混合 的 ， 可 以 位 于 任何 子 标签 的 内 部 或 外 部 。 当 查看 给 定 标签 的 子 元 素 时 ， 将 会 发 现 一 系列 标 
签 和 文字 的 自由 混合 。 

只 包含 换行 符 的 导航 文本 块 是 HTML 的 一 种 常见 功能 。 例 如 : 


人 已 下 沁 
<td>Data</td> 
yA 


<tr> 标 签 内 有 3 个 子 元 素 ， 如 下 所 示 : 


>>> example = BeautifulSoup('''"' 
wr 
<td>data</td> 
</tr> 
'', 'html .parser') 
>>> list (example.tr.children) 
['\n', <td>data</td>, '\n'] 



































两 个 换行 符 与 <ta> 标 签 同 级 ,并 由 解析 器 保留 ,这 两 个 换行 符 就 是 围绕 在 子 标 签 周 围 的 导航 文本 。 

BeautifulSoup 解析 器 依赖 于 另 一 个 底层 处 理 ， 该 底层 处 理 可 以 是 内 置 的 html .parser 模块 。 
html .parser 最 容易 使 用 ， 而 旦 涵盖 了 最 常见 的 用 例 。 除 此 之 外 ， 还 有 很 多 其 他 替代 解析 器 可 以 使 
用 ，Beautiful Soup 文档 列 出 了 可 用 于 解决 特定 Web 解析 问题 的 其 他 底层 解析 器 。 

底层 解析 器 识别 事件 ， 包 括 元 素 开 始 、 元 素 结束 、 注 释 开 始 、 注 释 结 束 、 长 文本 和 类 似 的 词汇 对 
象 。 在 更 高 的 层次 上 ， 这 些 事件 用 于 构建 Beautiful Soup 文档 的 各 种 对 象 。 



























































9.9.4 补充 知识 


Beautiful Soup 的 Tag 对 象 表现 了 文档 的 层次 结构 。 标 签 中 有 以 下 几 种 导航 。 
口 除了 特殊 的 根 容 器 [daocument] 之 外 的 所 有 标签 都 将 有 一 个 父 标 签 。 顶 级 标签 <html> 通 常 是 
根 文档 容器 的 唯一 子 标签 。 
口 parents 属性 是 标签 的 所 有 父 标签 的 生成 器 。 它 是 通过 层次 结构 到 给 定 标签 的 路 径 。 
口 所 有 Tag 对 象 都 可 以 有 子 标签 。 某 些 标签 没有 子 标签 ， 如 <img/> 和 <hr/>。children 属性 
是 标签 的 子 标签 的 生成 器 。 
口 有 子 标签 的 标签 下 可 能 有 多 个 级 别 的 标签 。 例 如 ，<html> 标 签 将 整个 文档 作为 后 代 。 
children 属性 包含 直接 的 子 标签 ，descendants 属性 生成 所 有 子 标 签 的 子 标 签 。 
口 标签 还 可 以 具有 兄弟 标签 ， 也 就 是 同一 容器 内 的 其 他 标签 。 由 于 标签 具有 已 定义 的 顺序 ， 
此 可 以 使 用 next_sipbling 和 brevious_sipbling 属性 遍历 所 有 兄弟 标签 。 

在 某 些 情况 下 , 文档 具有 简单 明了 的 组 织 结构 ,通过 对 ia 属性 或 class 属性 的 简单 搜索 就 可 以 

找到 相关 数据 。 搜 索 给 定 结构 的 示例 如 下 : 


>>> ranking table = soup.find('table', class ="ranking-list") 


请 注意 ,在 查询 中 搜索 名 为 class 的 属性 时 ， 必 须 使 用 class_。 提 供 整个 文档 ， 就 可 以 搜索 所 
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有 的 <table class="ranking-1ist"> 标 签 ， 最 终 在 网 页 中 找到 第 一 个 符合 条 件 的 表格 。 由 于 我 们 
知道 结果 只 是 符合 条 件 的 表格 之 一 ， 因 此 这 种 基于 属性 的 搜索 有 助 于 区 分 网 页 上 的 其 他 表格 数据 。 
这 个 <taple> 标 签 的 父 节 点 如 下 所 示 : 























>>> list(tag.name for tag in ranking table.parents) 
['section', 'div', 'div', 'div', 'div', 'body', 'html', '[document]'] 


我 们 显示 了 <table> 标 签 的 每 个 父 节 点 的 名 称 。 请 注意 ， 其 中 包含 4 个 帜 套 的 <aiv> 标 签 ， 它 们 
包 庄 着 包含 <Eable> 标 签 的 <section> 标 签 。 每 个 <aiv> 标 签 都 可 能 具有 不 同 的 class 属性 , 该 属性 
可 以 正确 地 定义 内 容 和 内 容 的 样式 。 

[document] 是 整体 的 BeautifulSoup 容器 ， 容 纳 了 前 面 解析 的 各 种 标签 。 这 突出 显示 了 它 不 
是 一 个 真正 的 标签 ， 而 是 顶级 <html> 标 签 的 容器 。 












































9.9.5 ”延伸 阅读 


口 9.7 节 和 9.8 节 使 用 了 类 似 的 数据 , 示例 数据 是 从 HTML 页 面 中 创建 的 ,而 这 些 HTML 页 面 就 
是 通过 本 实例 介绍 的 技术 抓 取 的 。 














9.10 将 CSV 模块 的 DictReader 更 新 为 namedtuple 读 取 器 


当 我 们 从 CSV 格式 文件 中 读 取 数据 时 ， 结 果 的 数据 结构 有 两 种 常见 的 选择 。 
口 当 使 用 csv.reaqer () 时 ， 每 行 都 是 一 个 列 值 的 简单 列表 。 
口 当 使 用 csv .DictReagder 时 , 每 行 都 是 一 个 字典 。 默 认 情 况 下 , 第 一 行内 容 成 为 行 字典 的 键 。 
另 一 种 方法 是 提供 一 个 键 值 列表 。 

这 两 种 选择 在 引用 行 中 的 数据 时 都 很 不 方便 ， 因 为 涉及 看 起 来 很 复杂 的 语法 。 当 使 用 CSV 读 取 
器 时 ， 引 用 数据 时 就 必须 使 用 row[2] ， 而 row[2] 的 语义 非常 模糊 。 当 使 用 DictReader 时 ， 可 以 
使 用 row['daate']， 这 种 方法 的 语义 清晰 了 一 些 ， 但 是 书写 时 仍然 不 方便 。 

在 一 些 实际 的 电子 表格 中 , 列 名 称 不 太 可 能 是 很 长 的 字符 串 。 像 row['Total of all locations 
excluding franchisees'] 这 样 的 名 称 用 起 来 很 不 方便 。 

如 何 用 更 简单 的 语法 替代 复杂 的 语法 ? 


9.10.1 准备 工作 


要 提高 使 用 电子 表格 的 程序 的 可 读 性 , 一 种 方法 是 用 nameatuple 对 象 替 换 列 的 列表 。 这 种 方法 
提供 了 易于 使 用 的 名 称 ， 由 namedtuple 定义 ， 而 不 是 .csv 文件 中 可 能 很 随意 的 列 名 。 

更 重要 的 是 ,这 种 方法 允许 使 用 更 优雅 的 语法 来 引用 各 种 列 。 除 了 *ow[0] ,也 可 以 使 用 row.date 
引用 名 为 aate 的 列 。 

列 名 称 以 及 每 列 的 数据 类 型 都 是 数据 文件 模式 的 一 部 分 。 在 某 些 CSV 文件 中 ， 列 标题 的 第 一 行 
就 是 文件 的 模式 。 该 模式 是 有 限制 的 ， 仅 提供 属性 名 称 ; 数据 类 型 是 未 知 的 ， 必 须 作 为 字符 串 处 理 。 
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添加 电子 表格 行 的 外 部 模式 有 两 个 原因 : 
口 可 以 提供 有 意义 的 名 字 ; 
口 可 以 在 必要 时 执行 数据 转换 。 

本 实例 的 背景 信息 是 一 个 简单 的 CSV 文件 ， 其 中 包含 一 些 帆船 日 志 记 录 的 实时 数据 ， 即 
waypoints.csv 文件 。 数 据 如 下 所 示 : 

lat,1lon,date,time 

32780321666666667.,=79.9338333333333,2012=11=27.;093L5%00 

3LS6VL4833333333.-80593325,.2012=211-28.700800300 

0 LILO06G66667, < Bl.0520 .20L2-L1:2.87 1103500 

上 述 数据 有 4 列 ， 其 中 2 列 是 航路 点 的 纬度 和 经 度 ， 日 期 和 时 间作 为 单独 的 值 分 别 占据 一 列 。 该 
数据 并 不 理想 ， 我 们 将 分 别 讨论 各 种 数据 清洗 步骤 。 

在 本 例 中 ， 列 标题 恰好 是 有 效 的 Python 变量 名 。 这 种 情况 是 很 少见 的 ， 但 是 可 以 简化 处 理 过 程 。 
本 实例 随后 的 部 分 将 介绍 替代 方案 。 

数据 清洗 过 程 中 最 重要 的 一 步 是 把 数据 整理 为 namedtuple。 
















































































9.10.2 ”实战 演练 
(1) 导入 所 需 的 模块 和 定义 。 本 例 需 要 使 用 collections、csv 和 pathlib 模块 。 


from collections import namedtuple 
from pathlib import Path 
import csyv 


(2) 定义 匹配 实际 数据 的 namedtuple。 本 例 将 其 命名 为 Waypoint , 并 提供 了 4 个 数据 列 的 名 称 。 
在 本 例 中 ， 属 性 恰好 与 列 名 称 匹配 。 列 名 称 匹配 属性 名 称 并 不 是 必 备 条 件 。 












































Waypoint = namedtuple('Waypoint', ['lat', 'lon', 'date', 'time']) 
(3) 定义 引用 数据 的 Path 对 象 。 
waypoints_path = Path('waypoints.csv') 





(4) 为 打开 的 文件 创建 处 理 上 下 文 。 

with waypoints_path.open() as waypoints_file: 

(5) 为 数据 定义 CSV 读 取 器 。 我 们 称 之 为 原始 读 取 器 。 从 长 远 来 看 ， 我 们 将 参照 8.3 节 来 清洗 和 
筛选 数据 。 

raw_reader = csv.reader (waypoints_file) 

(6) 定义 一 个 从 输入 数据 的 元 组 构建 Waypoint 对 象 的 生成 器 。 

waypoints_reader = (Waypoint (*row) for row in raw_ reader) 

现在 可 以 使 用 生成 器 表达 式 waypoints_reader 来 处 理 数据 行 了 : 


for row in waypoints_reader: 
print (row.lat, row.lon, row.date, row.time) 
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waypoints_reader 对 象 还 将 提供 需要 忽略 的 标题 行 。 随 后 的 部 分 将 讨论 过 滤 和 转换 。 
表达 式 (Waypoint (*row) for row in raw_reader) 将 每 个 row 元 组 的 值 扩展 为 Waypoint 
函数 的 位 置 参 数值 。 之 所 以 可 以 这 样 操作 ， 是 因为 CSV 文件 中 的 列 顺序 匹配 namedtuple 定义 中 的 
列 顺序 。 

上 述 构 建 过 程 也 可 以 使 用 itertools 模 块 实现 ,starmap () 函数 可 以 用 作 starmap (Waypoint， 
raw_reader) ， 该 函数 也 可 以 将 每 个 来 自 raw_reader 的 元 组 扩展 为 waypoint 函数 的 位 置 参数 。 
请 注意 ， 不 能 使 用 内 置 的 map () 函数 。map () 函数 假定 函数 只 有 一 个 参数 值 。 我 们 不 希望 含有 4 个 元 
素 的 row 元 组 被 用 作 waypoint 郴 数 的 唯一 参数 。 需 要 将 4 个 元 素 分 成 4 个 位 置 参数 值 。 















































9.10.3 ”工作 原理 


本 实例 可 以 分 为 几 个 部 分 。 首先 , 使 用 csv 模块 对 数据 行 和 数据 列 进行 基本 解析 。 本 实例 将 依据 
9.5 节 处 理 数 据 的 物理 格式 。 

其 次 ， 定义 一 个 namedtuple()。namedtuple() 为 数据 提供 了 一 个 最 小 的 模式 ,但 是 这 种 说 法 
还 不 够 全 面 、 详 细 。 实 际 上 ，namedtuple () 提供 了 一 个 列 名 序列 ， 并 且 简 化 了 访问 特定 列 的 语法 。 

最 后 ,将 CSV 读 取 器 包装 在 一 个 生成 器 函数 中 ， 为 每 一 行 构建 namedtuple 对 象 。 这 只 是 对 默 
认 处 理 的 一 个 微小 改变 ， 但 是 为 随后 的 程序 设计 带 来 了 更 好 的 风格 。 

现在 可 以 用 row.qdate 引用 一 个 特定 列 , 而 不 是 row[2] 或 row['date']。 虽然 这 是 一 个 很 小 的 
变化 ， 但 是 可 以 简化 复杂 算法 的 表述 。 
















































































9.10.4 ”补充 知识 


处 理 输入 的 初始 示例 还 有 另外 两 个 问题 。 首 先 ， 标 题 行 与 有 用 的 数据 行 混合 在 一 起 ,应 该 用 某 种 
过 滤器 拒绝 标题 行 。 其 次 ， 因 为 数据 都 是 字符 串 ， 所 以 必须 执行 某 些 转换 。 我 们 将 通过 扩展 实例 来 解 
决 这些 问 题 。 

丢弃 不 需要 的 标题 行 有 两 种 常见 技术 。 

口 使 用 显 式 的 迭代 器 ， 丢 弃 第 一 个 元 素 。 总 体 思 路 如 下 : 


with waypoints_path.open() as waypoints_file: 
raw_reader = csv.reader (waypoints_file) 
waypoints_iter = iter(waypoints_reader) 
next (waypoints_iter) # 标题 
for row in waypoints_iter: 
print (row) 


这 上段 代码 显示 了 如 何 从 原始 CSV 读 取 融 创 建 一 个 迭代 器 对 象 waypoints_iter。 我们 可 以 使 用 
next () 函数 从 读 取 器 跳 过 单个 元 素 ， 其 余 的 元 素 可 以 用 于 构建 有 用 的 数据 行 ， 也 可 以 使 用 
itertools.islice() 国 数 来 实现 。 

口 编写 生成 器 或 使 用 filter () 函数 来 排除 选 定 的 行 。 


with waypoints_path.open() as waypoints_file: 
raw_reader = csv.reader (waypoints_file) 








































































































9.10 将 CSV 模块 的 DictReader 更 新 为 namedtuple 读 取 器 313 





skip_header = filter(lambda row: row[0] != 'lat', raw_reader) 
waypoints_reader = (Waypoint (*row) for row in skip_header) 
for row in waypoints_reader: 

print (row) 


该 示例 显示 了 从 原始 CSV 读 取 器 创建 过 滤 生 成 器 skip_header 的 方法 。 过 过 湛 共 使 用 简单 的 表达 
式 row[0] != 'lat' 来 确定 某 一 行 是 标题 行 还 是 有 用 数据 。 过 滤 右 只 让 有 用 的 行 通过 ， 标 题 行 则 被 


拒绝 。 
另外 , 还 需要 将 各 种 数据 项 转换 为 更 有 用 的 值 。 我 们 将 依照 8.10 节 从 原始 输入 数据 构建 一 个 新 的 


namedtuple: 



























































Waypoint_Data = namedtuple('Waypoint Data', ['lat', 'lon', 'timestamp']) 


对 于 大 多 数 项 目 ， 很 明显 原来 的 名 字 waypoint namedtuple 选择 得 并 不 是 很 好 。 需 要 重 构 代 
码 来 更 改名 称 , 以 说 明 原 始 waypoint 元 组 的 作用 。 随 着 设计 的 不 断 进化 , 这 种 重 命 名 和 重 构 将 会 多 
次 发 生 。 根 据 需 要 重 命 名 很 重要 。 本 书 不 再 演示 重 命 名 的 过 程 ， 留 给 读者 来 重新 设计 这 些 名 称 。 

为 了 进行 转换 ,需要 一 个 函数 来 处 理 单个 Waypoint 的 各 个 字段 。 该 函数 将 创建 更 有 用 的 值 ， 不 
仅 涉 及 对 纬度 和 经 度 值 使 用 float () ， 还 需要 仔细 解析 日 期 值 。 

日 期 和 时 间 的 过 程 如 下 。 代 码 中 有 两 个 lambda 对 象 ，lambda 对 象 是 只 有 一 个 表达 式 的 
小 函数 ， 它 们 将 日 期 或 时 间 字 符 串 转换 为 日 期 或 时 间 值 : 



























































import datetime 
parse_date = lambda txt: datetime.datetime.strptime (txt, 
parse time = lambda txt: datetime.datetime.strptime (txt, 


可 以 使 用 这 些 对 象 从 原始 的 wavpoint 对 象 构建 一 个 新 的 Waypoint_data 对 象 : 


op 
sp 


$m 
om 


d').date() 
Ss" 


A 
H: ) .time() 


op 
加 
oo 

















def convert waypoint (waypoint): 
return Waypoint_Datal 
lat = float (waypoint.lat), 
lon = float (waypoint.1lon), 
timestamp = datetime.datetime.combinel( 
parse_date (waypoint .date), 
parse_time (waypoint .time) 








我 们 应 用 了 一 系列 的 函数 ， 它 们 从 现 有 数据 结构 构建 了 新 数据 结构 : float () 函数 对 纬度 和 经 度 
值 进 行 了 转换 ，parse_dqate 和 parse_time lambda 对 象 以 及 datetime 类 的 combine () 方 法 将 日 
期 和 时 间 值 转换 为 了 aatetime 对 象 。 

该 函数 为 源 数 据 构建 了 一 系列 更 完整 的 处 理 步 又 : 


with waypoints_path.open() as waypoints_file: 
raw_reader = csv.reader (waypoints_file) 





























skip_header = filter(lambda row: row[0] != 'lat', raw_reader) 
waypoints_reader = (Waypoint (*row) for row in skip_header) 
waypoints_data_reader = (convert waypoint (wp) for wp in waypoints_reader) 


for row in waypoints_data _ reader: 
print (row.lat, row.lon, row.timestamp) 
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本 实例 对 原始 读 取 器 进行 了 补充 ,分别 添 加 了 跳 过 标题 的 过 滤器 函数 ,创建 Waypoint 对 象 的 生 
成 器 ， 以 及 另 一 个 创建 waypoint_Dpata 对 象 的 生成 器 。 在 for 语句 的 循环 体 中 ， 有 一 个 简单 易 用 的 
数据 结构 。 我 们 可 以 引用 row.1at 而 不 是 row[0] 或 row['lat']。 

请 注意 ， 每 个 生成 器 函数 都 是 惰性 的 (lazy )， 它 不 会 获取 更 多 的 输入 ， 只 须 获 取 能 够 满足 某 些 输 
出 的 最 小 要 求 输入 即 可 。 这 组 生成 器 函数 使 用 的 内 存 很 少 ， 可 以 处 理 无 限 大 小 的 文件 。 























9.10.5 ”延伸 阅读 
口 9.11 节 将 使 用 可 变 的 SimpleNamespace 数据 结构 来 实现 本 实例 。 





9.11 将 CSV 模块 的 DictReader 更 新 为 namespace 读 取 器 


当 我 们 从 CSV 格式 文件 中 读 取 数据 时 ， 结 果 的 数据 结构 有 两 种 常见 的 选择 

口 当 使 用 csv.reaqer () 时 ， 每 行 都 是 一 个 列 值 的 简单 列表 。 

口 当 使 用 csv .DictReader 时 , 每 行 都 是 一 个 字典 。 默 认 情 况 下 , 第 一 行内 容 成 为 行 字典 的 键 。 
另 一 种 方法 是 提供 一 个 键 值 列表 。 

这 两 种 选择 在 引用 行 中 的 数据 时 都 很 不 方便 ， 因 为 涉及 看 起 来 很 复杂 的 语法 。 当 使 用 CSYV 读 取 
器 时 ， 引 用 数据 时 就 必须 使 用 row[2]， 而 *ow[2] 的 语义 非常 模糊 。 当 使 用 DictReader 时 ， 可 以 
使 用 row['date']， 这 种 方法 的 详 大义 清晰 了 一 些 , 但 是 书写 时 仍然 不 方便 。 

在 一 些 实际 的 电子 表格 中 , 列 名 称 不 太 可 能 是 很 长 的 字符 串 。 像 row['Total of all locations 
excluding franchisees'] 这 样 的 名 称 用 起 来 很 不 方便 。 

如 何 用 更 简单 的 语法 替代 复杂 的 语法 呢 ? 


9.11.1 准备 工作 


列 名 称 以 及 每 列 的 数据 类 型 都 是 数据 的 模式 。 列 标题 是 戏 入 CSV 数据 第 一 行 的 模式 。 该 模式 仅 
提供 属性 名 称 ， 数 据 类 型 是 未 知 的 ， 必 须 作为 字符 串 处 理 。 

添加 电子 表格 行 的 外 部 模式 有 两 个 原因 : 
口 可 以 提供 有 意义 的 名 字 ; 
口 可 以 在 必要 时 执行 数据 转换 。 

我 们 还 可 以 使 用 模式 来 定义 数据 质量 和 清洗 处 理 过 程 ,但 是 这 可 能 导致 处 理 变 得 相当 复杂 。 本 实 
例 只 使 用 模式 来 提供 列 名 和 数据 转换 。 

本 实例 的 背景 信息 是 一 个 简单 的 CSV 文件 ,其 中 包含 一 些 帆船 日 志 记 录 的 实时 数据 , 即 waypoints. 
csv 文件 。 数 据 如 下 所 示 : 


lat,1lon,date,time 
32.8321666666667,-79;9338333333333,2012-11=27,09:15:00 
31.6714833333333,-80.93325,2012-11-28,00:00:00 
30.7171666666667,-81.5525,2012-11-28,11:35:00 
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这 个 电子 表格 有 4 列 , 其 中 2 列 是 航路 点 的 纬度 和 经 度 , 日 期 和 时 间作 为 单独 的 值 分 别 占据 一 列 。 
该 数据 并 不 理想 ， 我 们 将 分 别 讨论 各 种 数据 清洗 步骤 。 

在 本 例 中 , 列 标题 恰好 是 有 效 的 Python 变量 名 。 这 种 情况 可 以 简化 处 理 过 程 。 在 没有 列 名 或 列 名 
不 是 Python 变量 的 情况 下 ， 必 须 将 列 名 映射 为 首选 属性 名 称 。 


























A 


9.11.2 “实战 演练 
(1) 导入 所 需 的 模块 和 定义 。 本 例 需 要 使 用 types 、csv 和 pathlib 模块 。 


from types import SimpleNamespace 
from pathlib import Patnh 


(2) 导入 csv 并 定义 一 个 引用 数据 的 Path 对 象 。 


waypoints_path = Path('waypoints.csv') 

(3) 为 打开 的 文件 创建 处 理 上 下 文 。 

with waypoints_path.open() as waypoints_file: 

(4) 为 数据 定义 CSV 读 取 器 。 我 们 称 之 为 原始 读 取 器 。 长 远 来 看 ， 我 们 将 参照 8.3 节 使 用 多 个 生 
成 器 表达 式 来 清洗 和 筛选 数据 。 

raw_reader = csv.DictReader (waypoints_file) 

(5) 定义 一 个 生成 器 ， 将 字典 转换 为 SimpleNamespace 对 象 。 

ns_reader = (SimpleNamespace(**row) for row in raw_reader) 

该 步骤 使 用 了 通用 的 simpleNamespace 类 。 当 我 们 需要 使 用 更 具体 的 类 时 ， 可 以 用 特定 于 应 
用 程序 的 类 名 替换 simpleNamespace。 该 类 的 _ init_ ”方法 必须 使 用 匹配 电子 表格 列 名 称 的 关键 字 

执行 完 上 述 步 又 ， 可 以 使 用 以 下 生成 器 表达 式 来 处 理 行 : 


for row in ns_reader: 
print (row.lat, row.lon, row.date, row.time) 





上 



































9.11.3 ”工作 原理 


本 实例 可 以 分 为 几 个 部 分 。 首 先 , 使 用 csv 模块 对 数据 行 和 数据 列 进行 基本 解析 。 本 实例 将 依据 
9.5 节 处 理 数据 的 物理 格式 。CSV 格式 的 文档 通过 逗号 分 隔 每 行 中 的 文本 列 ， 某 些 使 用 引号 的 规则 可 
以 使 列 中 的 数据 包含 逗号 。 这 些 规则 都 可 以 通过 csv 模块 实现 ， 从 而 避免 了 为 此 再 编写 一 个 解析 器 。 

其 次 ,将 CSV 读 取 器 包装 在 一 个 生成 器 函数 中 ， 为 每 一 行 构建 一 个 SimpleNamespace 对 象 。 
这 只 是 对 默认 处 理 的 一 个 微小 扩展 ,但 是 为 随后 的 程序 设计 带 来 了 更 好 的 风格 。 现 在 可 以 用 row.date 
引用 一 个 特定 列 ， 而 不 是 row[2] 或 row['qate']。 虽然 这 是 一 个 很 小 的 变化 , 但 是 可 以 简化 复杂 
法 的 表述 。 
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9.11.4 ”补充 知识 


本 实例 可 能 还 有 男 外 两 个 问题 需要 解决 。 是 否 需 要 解决 这 些 问题 取决 于 数据 的 结构 和 用 途 。 

口 如 何 处 理 非 Python 变量 的 电子 表格 名 称 ? 

口 如 何 把 数据 从 文本 转换 为 Python 对 象 ? 

事实 证 明 ， 这 两 个 需求 都 可 以 通过 数据 的 逐 行 转换 函数 进行 优雅 的 处 理 。 男 外 ,该 函数 还 可 以 处 
理 列 的 重 命 名 : 


def make_ row(source): 
return SimpleNamespacel 
lat = float (source['lat']), 
lon = float (source['lon']), 
timestamp = make timestamp (source['date'], source['time']), 


















































) 
这 个 函数 实际 上 是 原始 电子 表格 的 模式 定义 。 该 函数 中 的 每 一 行 都 提供 了 几 条 重要 的 信息 : 
口 simpleNamespace 中 的 属性 名 称 ; 
口 源 数据 的 转换 ; 
口 映射 到 最 终结 果 的 源 数据 列 名 称 。 

本 实例 的 目标 是 定义 所 有 需要 使 用 的 辅助 函数 或 支持 函数 , 确保 转换 函数 的 每 一 行 与 前 面 显示 的 
函数 相似 。 该 函数 的 每 一 行 都 是 一 个 结果 列 的 完整 规范 。 另 外 , 该 函数 的 每 一 行 都 是 按照 Python 语法 
编写 的 ， 这 是 该 函数 的 男 一 个 优点 。 

该 函数 可 以 替换 ns_reader 语句 中 的 simpleNamespace。 所 有 转换 工作 都 可 以 用 以 下 代码 完成 : 


ns_reader = (make_ row(row) for row in raw_reader) 


这 个 行 转换 函数 依赖 于 make_timestamp () 函数 。make_timestamp () 孔 数 将 两 个 源 列 转换 为 
一 个 datetime 对 象 ， 如 下 所 示 : 


import datetime 

make_date = lambda txt: datetime.datetime.strptimel 
txt, '%Y-%m-%d').date!() 

make_time = lambda txt: datetime.datetime.strptimel 
txt, '%H:%SM:%$S').time!() 































































































def make timestamp (date, time): 
return datetime.datetime.combinel 
make_date (date), 
make_time (time) 


) 
make_timestamp () 图 数 将 时 间 戳 创建 过 程 分 为 3 个 部 分 。 前 两 部 分 很 简单 ， 每 部 分 只 需要 一 个 
lambda 对 象 就 可 以 解决 问题 。 这 些 lambda 对 象 将 文本 转换 为 datetime.date 或 datetime.time 
对 象 。 每 个 转换 都 使 用 strptime () 方 法 来 解析 日 期 或 时 间 字 符 串 ， 并 返回 适当 的 对 象 类 。 
第 三 个 部 分 也 可 以 使 用 一 个 lambda 对 象 完 成 ， 因 为 它 也 是 一 个 单一 的 表达 式 。 但 是 ， 这 个 表达 
式 很 长 ， 把 它 包 装 为 一 个 aef 语句 似乎 更 清晰 一 些 。 该 表达 式 使 用 aatetime 的 combine () 方 法 将 
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日 期 和 时 间 组 合成 一 个 单独 的 对 象 。 


9.11.5 延伸 阅读 


口 9.10 节 使 用 不 可 变 的 namedtuple 数据 结构 实现 了 本 实例 ， 而 不 是 SimpleNamespace。 


9.12 ”使 用 多 个 上 下 文 读 取 和 写 入 文件 


我 们 经 常 需要 转换 数据 格式 。 例 如, 可 能 有 一 个 复杂 的 Web 日 志 , 需要 将 其 转换 为 更 简单 的 格式 。 

关于 复杂 Web 日 志 格式 的 相关 信息 ， 请 参阅 9.6 节 。 我 们 希望 只 解析 一 次 复杂 的 Web 日 志 。 

完成 解析 之 后 ， 我 们 希望 使 用 更 简单 的 文件 格式 ， 类 似 9.10 市 或 9.11 节 中 显示 的 格式 。CSV 格 
式 的 文件 可 以 通过 csv 模块 来 读 取 和 解析 ， 简 化 了 物理 格式 方面 的 考虑 。 

如 何 转 换 数据 格式 ? 


9.12.1 准备 工作 


将 数据 文件 从 一 种 格式 转换 为 另 一 种 格式 意味 着 程序 需要 有 两 个 打开 的 上 下 文 : 一 个 用 于 读 取 ， 
另 一 个 用 于 写 和 信 。 在 Python 中 很 容易 实现 这 种 处 理 。 使 用 with 语句 上 下 文 可 以 确保 文件 正确 关闭 ， 
并 且 所 有 相关 的 操作 系统 资源 都 被 完全 释放 。 

本 实例 着 眼 于 一 个 汇总 许多 Web 日 志文 件 的 常见 问题 。 源 文件 采用 8.2 节 和 9.6 节 使 用 过 的 格式 。 
示例 数据 如 下 : 


[2016-05-08 11:08:18,651] INFO in ch09_r09: Sample Message One 
[2016-05-08 11:08:18,651] DEBUG in ch09_r09: Debugging 
[2016-05-08 11:08:18,652] WARNING in ch09_r09: Something might have gone wrong 


这 些 数 据 难以 处 理 , 解析 它们 需要 复杂 的 正则 表达 式 ， 而 且 对 于 大 量 的 数据 ， 正 则 表达 式 的 处 理 
速度 也 相当 缓慢 。 
解析 上 述 数据 行 中 各 种 元 素 的 正则 表达 式 模式 如 下 所 示 : 


import re 

pattern text = (r'\[(?P<date>\d+-\d+-\d+ \d+:\d+:\d+, \d+) \]' 
'\st(?P<level>\w+)' 
'\stin\s+(?P<module>[\w_\.]+):' 
'\s+(?P<message>.*)') 

pattern = re.compile (pattern text) 


这 个 复杂 的 正则 表达 式 有 4 个 部 分 。 

口 日 期 时 间 戳 被 [ ] 包 围 ,并 包含 各 种 数字 、 连 字符 、 冒 号 和 一 个 逗号 , 它 将 被 () 组 上 的 ?P<date> 
前 级 捕获 并 分 配 名 称 date。 

口 严重 性 级 别 , 这 是 一 系列 连续 的 字符 , 由 下 一 个 () 组 的 ?P<level> 前 缀 捕获 并 给 出 等 级 名 称 。 
口 模块 信息 是 一 个 字符 序列 ， 包 括 _ 和 .。 它 夹 在 in 和 :之 间 ， 并 被 分 配 了 名 称 module。 

口 最 后 ， 有 一 条 消息 延伸 到 行 尾 ， 由 最 后 的 () 内 部 的 ?P<message> 分 配给 消息 。 
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该 模式 还 包括 连续 的 空白 \s+， 它 们 不 被 捕获 在 任何 () 组 中 ， 而 是 被 忽略 了 。 
当 使 用 这 个 正则 表达 式 创建 match 对 象 时 ，match 对 象 的 groupdict () 方 法 将 生成 一 个 字典 ， 
! 包 含 每 行 的 名 称 和 值 。 这 符合 CSV 读 取 器 的 工作 方式 ， 并 提供 了 一 个 处 理 复杂 数据 的 常用 框架 。 
我 们 将 在 一 个 迭代 日 志 数 据 行 的 函数 中 使 用 它 。 该 函数 会 应 用 上 述 正则 表达 式 ， 并 生成 组 字典 .; 
def extract_row_iter(source_ log_file): 
for line in source_ log_ file: 
match = log_pattern.match (line) 
if match is None: 
# 可 以 在 这 里 编写 警告 信息 
continue 
yield match.groupdict() 


该 函数 将 遍历 给 定 输 入 文件 中 的 每 一 行 ， 并 将 正则 表达 式 应 用 于 每 行 。 如 果 匹 配 ， 则 捕获 数据 的 
相关 字段 。 如 果 没 有 匹配 ， 则 说 明 该 行 没有 遵循 预期 的 格式 ， 可 能 会 得 到 错误 信息 。 因 为 没有 符合 预 
期 的 数据 ， 所 以 continue 语句 跳 过 for 语句 的 其 余部 分 。 

yielg 语句 产生 匹配 数据 的 字典 。 每 个 字典 具有 4 个 命名 字段 和 来 自 日 志 的 捕获 数据 。 数 据 的 格 
式 只 会 是 文本 ， 因 此 附加 的 转换 必须 单独 应 用 。 

我 们 可 以 使 用 csv 模块 中 的 Dictwriter 类 生成 一 个 CSV 文件 ,并 将 各 种 数据 元 素 整 齐 地 分 开 。 
创建 了 CSV 文件 之 后 ， 处 理 起 数据 就 可 以 比 原 始 的 日 志 行 更 简单 、 快 速 了 。 
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9.12.2 ”实战 演练 
(1) 本 实例 需要 3 个 组 件 。 


import re 
from pathlib import Path 
import csyv 


(2) 匹配 简单 Flask 日 志 的 模式 如 下 所 示 。 其 他 类 型 的 日 志 或 Flask 的 其 他 配置 格式 ， 将 需要 不 同 
的 模式 。 

log_pattern = re.compilel 
'\[(?P<timestamp>.*?)\]" 
"\s(?P<levelname>\w+)" 
"\sin\s(?P<module>[\w\._]+):" 
"\s(?P<message>.*)") 

(3) 为 匹配 行 生成 字典 的 函数 如 下 所 示 。 该 函数 将 应 用 正则 表达 式 模 式 。 不 匹配 的 行 被 忽略 ， 匹 
配 的 行将 生成 一 个 由 元 素 名 称 及 其 值 构成 的 字典 。 

def extract_row_iter(source_ log_file): 

for line in source_ log_ file: 
match = log_pattern.match (line) 


if match is None: continue 
yield match.groupdict() 


(4) 为 日 志 汇 总 文件 定义 Path 对 象 。 


summary_path = Path('summary_log.csv') 
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(5) 然后 ， 可 以 打开 结果 上 下 文 。 因 为 使 用 了 with 语句 ， 所 以 无 论 脚 本 中 发 生 任何 情况 ,该 文件 
都 将 正确 关闭 。 


with summary_path.open('w') as summary_file: 


(6) 由 于 是 在 基于 字典 写 入 一 个 CSV 文件 ， 因 此 需要 定义 一 个 csv.DictWriter。 这 些 语句 需要 
在 with 语句 内 缩 进 4 个 空格 。 我 们 必须 从 输入 字典 中 提供 预期 的 键 。 这 些 键 将 定义 结果 文件 中 列 的 
顺序 。 


writer = csv.DictWriter(summary_file, 
['timestamp', 'levelname', 'module', 'message']) 
writer.writeheader() 


(7) 为 日 志文 件 的 源 目录 定义 一 个 Path 对 象 。 在 本 例 中 , 日志 文件 恰好 在 脚本 的 目录 中 。 这 种 情 
况 非常 少见 ， 最 好 使 用 一 个 环境 变量 。 

source_log_dir = Path('.') 

可 以 设想 使 用 os .environ.get ('LOG_PATH'，'/var/1o0g') 作 为 一 个 更 通用 的 解决 方案 ， 而 
不 是 一 个 硬 编码 的 路 径 。 

(8) 使 用 Path 对 象 的 glopb ( ) 方法 查找 与 所 需 名 称 匹 配 的 所 有 文件 。 

for source_log path in source_log_dqir.glob('r.1og') : 

这 种 方法 也 有 利于 从 环境 变量 或 命令 行 参 数 中 获取 模式 字符 串 。 

(9) 定义 一 个 读 取 每 个 源 文件 的 上 下 文 。 该 上 下 文 管理 器 将 保证 输入 文件 正确 关闭 并 释放 资源 。 
请 注意 ， 前 面 的 with 语句 和 for 语句 中 的 缩 进 共有 8 个 空格 。 该 步 又 在 处 理 大 量 文件 时 尤其 重要 。 

with source_log path.open() as Source_log_file: 

(10) 使 用 writer 的 writerows () 方 法 从 extract_row_iter() 函数 中 写 人 所 有 有 效 行 。 该 语 
句 在 with 语句 和 for 语句 内 都 是 需要 缩 进 的 。 该 步 又 是 处 理 过 程 的 核心 。 

writer.writerows (extract_row_iter(source log_ file) ) 

(11) 最 后 可 以 输出 一 个 摘要 。 该 语句 需要 在 外 层 的 with 语句 和 for 语句 内 部 缩 进 ， 它 总 结 了 前 
面 with 语句 的 处 理 过 程 。 


print ('Converted', source_ log path, 'to', summary_path) 























































































































9.12.3 ”工作 原理 


Python 可 以 很 好 地 使 用 多 个 上 下 文 管理 器 。 我 们 很 容易 编写 深层 舱 套 的 with 语句 。 每 个 with 
语句 可 以 管理 一 个 不 同 的 上 下 文 对 象 。 

由 于 打开 的 文件 是 上 下 文 对 象 ， 因 此 将 每 个 打开 的 文件 包装 在 一 个 with 语句 中 最 有 意义 ， 以 确 
保 文件 正确 关闭 并 且 所 有 操作 系统 资源 都 从 文件 中 释放 。 

我 们 使 用 Path 对 象 表示 文件 系统 位 置 ,这 使 我 们 能 够 根据 输入 文件 名 称 轻松 创建 输出 文件 名 称 ， 
或 者 在 处 理 文件 之 后 重 命 名 文件 。 更 多 相关 信息 ， 请 参阅 9.2 节 。 
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我 们 使 用 一 个 生成 器 函数 组 合 两 个 操作 。 首 先 ， 将 源 文本 映射 到 各 个 字段 。 其 次 ， 通 过 J 
器 排除 与 预期 模式 不 匹配 的 源 文本 。 在 许多 情况 下 ， 可 以 使 用 map () 函数 和 filter () 函数 ,这样 整 
个 处 理 过 程 会 更 加 清晰 。 

在 使 用 正则 表达 式 进 行 匹配 时 ， 分 离 操作 中 的 映射 部 分 和 过 滤 部 分 并 不 容易 。 正 则 表达 式 可 能 
匹配 某 些 输入 行 ， 这 些 输入 行将 成 为 一 种 绑 定 到 映射 的 过 滤 。 因 此 ， 使 用 生成 器 函数 非常 有 效 。 

csv 的 写 人 顺 有 一 个 writerows () 方 法 ， 该 方法 接受 一 个 迭代 器 作为 参数 值 ， 这 样 可 以 方便 地 
为 写 人 器 提供 生成 器 函数 。 写 人 顺 使 用 生成 器 产生 的 对 象 。 这 种 方式 可 以 处 理 非常 大 的 文件 ， 因 为 不 
会 将 整个 文件 读 入 内 存 ， 只 需要 读 取 足够 创建 一 个 完整 数据 行 的 文件 。 

































































9.12.4 补充 知识 


我 们 通常 需要 汇总 从 每 个 源 文件 中 读 取 的 日 志文 件 行 数 、 由 于 不 匹配 而 丢弃 的 行 数 以 及 最 后 写 入 
摘要 文件 的 行 数 。 

在 这 种 情况 下 使 用 生成 器 很 有 挑战 性 。 生 成 器 可 以 产生 大 量 的 数据 行 。 怎 样 使 用 生成 器 产生 一 
个 汇总 ? 

答案 是 可 以 提供 一 个 可 变 对 象 作为 生成 器 的 参数 。 理 想 的 可 变 对 象 是 一 个 collections . 
Counter 实例 。 可 以 使 用 该 对 象 对 事件 计数 , 包括 有 效 记 录 、 无 效 记 录 , 甚至 特定 数据 值 出 现 的 次 数 。 
可 变 对 象 可 以 由 生成 器 和 主 程序 共享 ， 以 便 主 程序 将 计数 信息 输出 到 日 志 中 。 

将 文本 转换 为 有 用 字典 对 象 的 映射 过 滤 函 数 (map-filter functon ) 如 下 所 示 。 我 们 编写 了 函数 的 第 
二 个 版 本 counting_extract_row_iter()， 以 强调 附加 功能 。 


def counting_ extract_row_iter(counts, source log_ file): 
for line in source_ log_ file: 
match = log_pattern.match (line) 
if match is None: 
counts['non-match'] += 1 
continue 
counts['valid'] += 1 
yield match.groupdict() 


我 们 提供 了 一 个 附加 参数 counts。 当 发 现 与 正则 表达 式 不 匹配 的 行 时 ， 可 以 递增 counter 
non-match 键 的 值 。 当 找到 正确 匹配 的 行 时 ,可 以 递增 counter 中 valia 键 的 值 。 这 提供 了 一 个 汇 
总 ， 说 明了 给 定 文件 中 处 理 的 行 数 。 

整个 处 理 脚 本 如 下 所 示 : 


summary_path = Path('summary_log.csv') 
with summary_path.open('w') as summary_file: 











































































































writer = csv.DictWriter (summary_file, 
['timestamp', 'levelname', 'module', 'message']) 
writer.writeheader () 


source_log_dir = Path('.') 
for source_ log path in source_ log dir.glob('*.10g'): 
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counts = Counter() 
with source_log_ path.open() as source_ log file: 
writer.writerows!( 
counting_ extract_row_ iter(counts, source_ log_ file) 
) 


print ('Converted', source_ log path, 'to', summary_path) 
print (counts) 


我 们 做 了 3 个 改动 。 
口 在 处 理 源 日 志文 件 之 前 创建 一 个 空 counter 对 象 。 
口 将 counter 对 象 提供 给 counting_extract_row_iter() 国 数 。 该 函数 在 处 理 行 时 会 更 新 

















Counter 对 象 。 

口 处 理 完 文件 后 ， 打 印 counter 对 象 的 值 。 未 修饰 的 输出 并 不 是 很 美观 ,但 它 说 明了 一 个 重要 的 
问题 。 

输出 如 下 所 示 : 


Converted 20160612.1og to summary _ log.csv 
Counter({'valid': 86400}) 

Converted 20160613.1og to summary_ log.csv 
Counter({'valid': 86399, 'non-match': 1) 


上 述 输 出 说 明了 summary_log.csv 文件 将 会 有 多 大 , 还 说 明了 20160613.log 文件 中 出 现 了 错误 。 

我 们 可 以 轻松 地 扩展 这 个 函数 来 组 合 所 有 源 文件 的 计数 器 , 以 便 在 处 理 过 程 结 束 时 生成 一 个 很 大 
的 输出 。 我 们 也 可 以 使 用 + 运算 符 组 合 多 个 counter 对 象 ， 以 创建 所 有 数据 的 总 和 。 这 种 想法 的 实现 
过 程 留 作 读 者 的 练习 。 

















9.12.5 ”延伸 阅读 
口 关于 上 下 文 的 基础 知识 ， 请 参阅 9.3 节 。 





统计 编程 和 线性 回归 








本 章 主要 介绍 以 下 实例 。 
口 使 用 内 置 统 计 库 
口 计算 counter 对 象 中 值 的 平均 值 
口 计算 相关 系数 
口 计算 回归 参数 



































口 计算 自 相 关 

口 确认 数据 是 随机 的 一 一 零 假 设 

口 查找 异常 值 

口 通过 一 次 遍历 分 析 多 个 变量 
10.1 引言 








数据 分 析 和 统计 处 理 是 现代 编程 语言 的 重要 应 用 ,其 主题 范围 很 广 。Python 生态 系统 包含 许多 附 
加 软件 包 ， 提 供 了 复杂 的 数据 探索 、 分 析 和 决策 功能 。 

本 章 将 介绍 一 些 基 本 的 统计 计算 , 这 些 计 算 可 以 使 用 Python 的 内 置 库 和 数据 结构 实现 。 本 章 还 将 
介绍 相关 性 的 问题 以 及 创建 回归 模型 的 方法 。 

本 章 也 会 研究 随机 问题 和 零 假 设 。 确 保 一 组 数据 中 真正 具有 可 测量 的 统计 效应 至 关 重 要 。 如 果 稍 
不 注意 ， 就 可 能 会 浪费 大 量 的 计算 时 间 去 分 析 无 关 紧要 的 噪声 。 

本 章 还 将 讨论 一 种 常用 的 优化 技术 ,该 技术 有 助 于 快速 产生 结果 。 将 设计 糟糕 的 算法 应 用 于 非常 
大 的 数据 集 ， 会 非常 浪费 时 间 。 


10.2 ”使 用 内 置 统计 库 


大 量 的 探索 性 数据 分 析 ( exploratory data analysis，EDA ) 涉及 数据 汇总 。 下 面 是 几 种 可 能 很 有 趣 的 
汇总 。 
口 集中 趋势 ( central tendency ): 均值 、 众 数 和 中 位 数 等 值 可 以 表征 一 组 数据 的 中 心 位 置 。 
口 极 值 (extrema ): 最 小 值 和 最 大 值 与 数据 的 集中 趋势 度量 一 样 重要 。 
口 方差 (variance ): 方差 和 标准 差 用 于 摘 述 数据 的 离散 趋势 。 方 差 较 大 说 明 数 据 广泛 分 布 ,方差 
较 小 说 明 数 据 紧 密 围 绕 中 心 值 。 
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如 何在 Python 中 获得 基本 的 描述 性 统计 信息 ? 
10.2.1 准备 工作 














本 实例 的 背景 信息 是 一 些 可 以 用 于 统计 分 析 的 简单 数据 。 原 始 数据 文 从 
一 个 JSON 文档 ,含有 4 个 系列 的 (x, 对 。 

可 以 通过 以 下 代码 读 取 这 些 数据 : 

>>> from pathlib import Path 


>>> import json 
>>> 








F 名 为 anscombe.json, 它 是 


from collections import OrderedDict 
>>> source path = Path('code/anscombe.json') 


>>> data = json.loads(source path.read text(), object pairs hook=OrderedDict) 


我 们 先 使 用 Path 类 定义 了 数据 文件 的 路 径 ， 然 后 使 用 Path 对 象 从 数据 文件 中 读 取 文本 。 
json.1loads () 使 用 该 文本 从 JSON 数据 中 构建 Python 对 象 。 

我 们 在 函数 中 添加 了 object_pairs_hook 参数 ， 因 此 可 以 使 月 
dict 类 来 构建 JSON。 这 种 方法 将 保留 源 文档 中 元 素 的 原始 顺序 。 

可 以 通过 如 下 方式 检查 数据 : 

>>> [item['series'] for item in datal 

['I', 'II', 'III', 'IV'] 


>>> [len(item['data']) for item in datal] 
[11, 11, 11, 11] 





























日 orderedDict 类 替代 默认 的 





























完整 的 JSON 文档 是 带 键 (比如 工 和 II ) 的 子 文档 序列 。 每 个 子 文档 有 两 个 字段 一 一 series 和 
data。data 值 中 有 一 系列 我 们 想 要 表征 的 观测 值 ， 每 个 观测 值 都 包含 一 对 值 。 
JSON 文档 的 示例 如 下 : 
[ 
"series": "I", 
-datar:™ 
{ 
> 10:0 
y 8.04 
} 
{ 
XL 80 
y .95 





该 示例 是 一 个 典型 的 JSON 文档 ， 也 是 一 个 字典 结构 的 列表 。 每 个 字典 都 有 一 个 用 键 series 标 
识 的 系列 名 称 和 一 个 用 键 aata 标识 的 数据 值 序列 。aata 中 的 列表 是 一 个 数据 项 序列 ， 每 个 数据 项 
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都 有 一 个 x 值 和 一 个 y 值 。 
要 从 这 种 数据 结构 中 查找 一 个 特定 的 系列 ， 有 很 多 种 方法 。 
口 for. . .if...return 语句 序列 。 


>>> def get_ series(data, series name): 
for s in data: 
if s['series'] == series name: 
return s 


for 语句 检查 值 序列 中 的 每 个 系列 。 系 列 是 一 个 字典 ， 具 有 标识 系列 名 称 的 ,series' 键 。if 语 
句 比 较 系列 名 称 和 目标 名 称 ， 并 返回 第 一 个 匹配 项 。 如 果 遇 到 未 知 的 系列 名 称 ， 则 将 返回 None。 
口 可 以 通过 如 下 方式 访问 数据 。 
>>> series 1 = get series(data, 'I') 
>>> series 1['series'] 
TI， 
>>> len(series 1['data']) 
11 


口 使 用 filter 函数 查找 所 有 匹配 项 ， 并 从 中 选择 第 一 个 匹配 项 。 


>>> def get_ series(data, series name): 
name match = lambda series: series['series'] == series name 
series = list(filter(name match, data))[0] 
return series 
filiter () 也 数 检查 值 序列 中 的 每 个 系列 。lambda 对 象 name_match 将 比较 系列 的 名 称 键 和 目标 
名 称 ， 并 返 这 种 方法 用 于 构建 一 个 1ist 对 象 。 如 果 每 个 键 都 是 唯一 的 ， 那 么 第 一 
个 元 素 就 是 唯一 的 元 素 。 查 找 未 知 的 系列 名 称 将 抛 出 IndexError 异常 。 
现在 可 以 通过 如 下 方式 访问 数据 。 
>>> series 2 = get_series(data，，'II') 
>>> series 2['series'] 
1II! 
>>> len(series 2['data']) 
玉生 


口 还 可 以 使 用 与 filter 函数 类 似 的 生成 器 表达 式 查找 所 有 匹配 项 。 我 们 将 从 结果 序列 中 选 出 
第 一 个 匹配 项 。 
>>> def get_ series(data, series name): 
series = list( 
S for s in data 
if s['series'] == series name 
)[0] 
return series 
生成 器 表达 式 检查 值 序列 中 的 每 个 系列 。 这 种 方法 使 用 表达 式 sl'series'] == series_name 
替代 了 lambda 对 象 或 函数 ,该 表达 式 将 比较 系列 的 名 称 键 和 目标 名 称 ， 并 通过 所 有 匹配 项 。 这 种 方 
法 用 于 构建 一 个 1ist 对 象 ， 并 返回 列表 中 的 第 一 个 元 素 。 查 找 未 知 的 系列 名 称 将 抛 出 IndexError 


异常 。 
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现在 可 以 通过 如 下 方式 访问 数据 。 


>>> series 3 = get_ series(data, 'III') 
>>> series 3['series'] 

se 

>>> len(series 3['data']) 

11 


8.8 节 中 有 儿 个 类 似 的 示例 。 
口 从 数据 中 选择 了 一 个 系列 之 后 ， 还 需要 从 系列 中 选择 一 个 变量 。 这 可 以 通过 生成 吕 函 数 或 生 
>>> def data iter(series, variable name): 
return (item[variable name] for item in series['data']) 


系列 字典 包含 一 个 具有 数据 值 序列 的 aata 键 。 每 个 data 值 都 是 一 个 具有 x 和 y 这 两 个 键 的 字 
典 。data_iter() 函数 将 从 数据 中 的 每 个 字典 选择 一 个 变量 ,该 函数 将 生成 可 用 于 详细 分 析 的 值 序列 。 


>>> s_4 = get_ series(data, 'IV') 

>>> s_4 x = list(data iter(s 4, 'x')) 
>>> len(s_4 x) 

11 


在 这 个 例子 中 , 我 们 选择 了 系列 IV。 在 这 个 系列 中 ,我 们 从 每 个 观测 值 中 选择 了 变量 x。 结 果 列 
表 的 长 度 显示 了 该 系列 中 有 11 个 观测 值 。 













































































10.2.2 ”实战 演练 
(1) 使 用 statistics 模块 计算 均值 和 中 位 数 。 


>>> import statistics 
>>> for series name in 'I', 'II', 'III', 'IV': 
Series = get_series(data, series_ name) 
for variable name in 'x', 'y': 
samples = list(data iter(series, variable name)) 
mean = statistics.mean(samples) 
median = statistics.median(samples) 
print (series name, variable name, round(mean,2), median) 














IX9.0 9.0 
IY7.5 7.58 
II x 9.0 9.0 
IIY7.5 8.14 
III x 9.0 9.0 
IT yy 7.5..7.11 
IV x 9.0 8.0 
IVYy 7.5 7.04 


我 们 使 用 get_series() 和 gata_iter() 从 给 定 系列 的 一 个 变量 中 选择 样本 值 。mean () 函数 和 
median () 函数 很 好 地 完成 了 计算 。 中 位 数 的 计算 方法 有 几 种 变 体 都 可 用 。 
(2) 使 用 collections 模块 计算 mode。 


>>> import collections 
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>>> for series name in 'I', 'II', ‘'III', 


Sa Series = get_ series(data, 
for variable name in 'x', 'y': 


二 
Series_name) 


data iter(series, variable name) 


mode) 


we samples = 

着 放 演 mode = collections.Counter(samples) .most_ common(1) 
print (series name, variable name, 

Ix [(4.0, 1)] 

Iy [(8.81, 1)] 

II x [(4.0, 1)] 


IIY [(8.74, 1)] 


III x [(4.0, 1)] 
IIIY [(8.84, 1)] 
IVx [(8.0, 10)] 
IVY [(7.91, 1)] 


同样 使 用 get_series() 和 qdata_iter() 从 给 定 
优雅 地 完成 了 计算 。 我 们 实际 上 从 这 个 操作 中 得 到 了 一 
的 结果 显示 了 值 和 值 出 现 的 次 数 。 

我 们 也 可 以 使 用 statistics 模块 中 的 mode ( 


















































函数 。 该 函数 的 优点 在 于 ， 当 没有 明 友 

















(mode ) 时 ， 能 够 抛 出 异常 ; 缺点 则 在 于 ， ey 
(3) 使 用 内 置 的 min () | max () 困 数 计算 极 值 。 
>>> for series name in 'I'，'II'，'III'，'IV': 


a Series = get_ series(data, 


和 for variable name in 'x', 'y': 
和 samples = 
a least = min(samples) 
y most = max(samples) 
ee print (series name, 
IXxX4.0 14.0 

IYy 4.26 10.84 

II x 4.0 14.0 

IIY3.1 9.26 

III x 4.0 14.0 

III y 5.39 12.74 

IV x 8.0 19.0 


IVYy 5.25 12.5 





variable name, 


series_ name) 


list(data iter(series, variable name)) 


least, most) 








mean) 


同样 使 用 get_series() 和 data_iter() 从 给 
函数 和 min () 函数 提供 了 极 值 。 
(4) 还 可 以 使 用 statistics 模块 计算 方差 和 标准 差 。 
>>> import statistics 
>>> for series name in 'I', 'II', 'III', 'IV': 
ee series = get series(data, series name) 
好 尖 for variable name in 'x', 'y': 
Ce samples = list(data iter(series, variable name)) 
让 mean = statistics.mean(samples) 
和 variance = statistics.variance(samples, 
ea stdev = statistics.stdev(samples, mean) 


print (series name, 


variable name, 


ee 中 选择 样本 值 。counter 对 象 
完整 的 频率 直方 图 。most_common ( 


) 方 法 


的 众 数 


定 系列 的 一 个 变量 中 选择 样本 值 。 内 置 的 max ( 
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po round (variance,2), round(stdev,2)) 
IX 11.0 3.32 
IYy 4.13 2.03 
II x 11.0 3.32 
II y 4.13 2.03 
III x 11.0 3.32 
III y 4.12 2.03 
IV x 11.0 3.32 
IVy 4.12 2.03 


同样 使 用 get_series() 和 data_iter () 从 给 定 系列 的 一 个 变量 中 选择 样本 值 。statistics 
模块 提供 了 variance() 和 stdev () 函数 ， 可 用 于 计算 感 a 


10.2.3 ”工作 原理 


上 述 函 数 是 Python 标准 库 中 的 精品 。 对 于 这 些 函 数 ， 我 们 的 关注 点 有 3 个 。 
口 min () 和 max() 函数 都 是 内 置 的 。 
口 collections 模块 的 counter 类 可 以 创建 频率 直方 图 ， 也 可 以 从 中 获得 众 数 。 
口 statistics 模块 的 mean()、median()、mode()、variance() 和 stdev() 可 以 提供 多 种 
统计 度量 。 
请 注意 ,data_iter () 是 一 个 生成 器 函数 ,其 结果 只 能 使 用 一 次 。 如 果 只 需要 计算 一 个 统计 汇总 
值 ， 那 么 该 函数 是 个 不 错 的 选择 。 
当 要 计算 多 个 值 时 ， 需 要 在 一 个 集合 (collection ) 对 象 中 捕获 生成 器 的 结果 。 在 上 述 示例 中 ， 为 
了 进行 多 次 计算 ， 我 们 使 用 aata_iter () 构 建 了 一 个 1ist 对 象 。 
























































10.2.4 ”补充 知识 


原始 数据 结构 aata 是 一 个 可 变 字典 序列 ,每 个 字典 有 两 个 键 一 一 series 和 data。 可 以 使 用 统 
计 汇 总 更 新 这 类 字典 。 生 成 的 对 象 可 以 保存 下 来 ， 随 后 进行 分 析 或 显示 。 
这 种 处 理 的 起 点 如 下 所 示 : 


def set_mean(data): 
for series in data: 









































for variable name in 'x', 'y': 
samples = data_iter(series, variable name) 
series['mean_'+variable name] = statistics.mean(samples) 








对 于 每 个 数据 系列 ,我们 使 用 data_iter () 函数 提取 了 单独 的 样本 , 然后 对 这 些 样 本 应 用 mean () 
函数 ， 最 后 使 用 一 个 由 函数 名 称 mean、_ 和 variable_name 构建 的 字符 串 键 ， 将 结果 重新 保存 到 
series 对 象 。 

请 注意 ， 该 函数 的 大 部 分 内 容 都 是 样板 代码 。 整 个 结构 可 以 重复 用 于 中 位 数 、 众 数 、 最 小 值 、 最 
大 值 ， 等 等 。 从 mean ( ) 函数 可 以 改变 为 别 的 函数 可 以 看 出 ， 样 板 代码 中 有 两 部 分 内 容 可 以 改变 : 

口 用 于 更 新 系列 数据 的 键 ; 
口 对 所 选 样本 序列 进行 求 值 的 函 
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我 们 不 需要 提供 函数 的 名 称 ， 可 以 从 函数 对 象 中 提取 名 称 ， 如 下 所 示 : 


>>> statistics.mean. name _ 
'mean' 


这 意味 着 我 们 可 以 编写 一 个 将 大 量 函 数 应 用 于 一 组 样本 的 高 阶 函 数 。 


def set_summary (data, function): 
for series in data: 














for variable name in 'x', 'y': 
samples = data_iter(series, variable name) 
series[function. name +'_'+variable name] = function(samples) 





我 们 用 参数 名 称 function 替代 了 特定 的 函数 mean () ， 前 者 可 以 绑 定 到 任意 的 Python 函数 。 处 
理 过程 将 给 定 函 数 应 用 于 data_iter () 的 结果 ,然后 使 用 函数 的 名 称 、_ 字符 和 variable_name 将 
汇总 结果 更 新 到 系列 字典 。 

高 阶 set_summary () 函数 如 下 所 示 : 


for function in statistics.mean, statistics.median, min, max: 
set_summary (data, function) 


六 函数 将 使 用 基于 mean () 、median()、max() 和 min() 的 4 个 汇总 信息 来 更 新 我 们 的 文档 。 由 
于 可 以 使 用 任意 Python 函数 ， 因 此 除了 前 面 显示 的 函数 之 外 ， 还 可 以 使 用 sum() 之 类 的 函数 。 
es statistics.mode() 会 抛 出 异常 ， 所 以 该 函数 可 能 需要 一 个 ee. 
语句 块 来 捕获 异常 ， 并 将 有 用 的 结果 放 和 人 series 对 象 。 我 们 也 可 以 允许 传播 异常 ， 通 知 协作 函 
据 是 可 疑 的 。 
更 新 后 的 JSON 文档 如 下 所 示 : 


[ 
{ 








































































































SEFLIEGS "RT", 
"ata"™i | 
人 
Se 10;50 
y 8.04 
}, 
€ 
RV 
WU CID 


"mean x": 9.0, 

"mean_y": 7.500909090909091， 
"median x": 9.0, 

"median y": 7.58, 

Hh a a 
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可 以 将 其 保存 到 文件 中 ， 用 于 进一步 的 分 析 。 使 用 pathlib 处 理 文件 名 ， 可 能 需要 以 下 代码 : 








target_path = source path.parent / (source path.stem+'_stats.json') 
target_path.write text (json.dumps (data, indent=2)) 


上 述 代 码 在 源 文件 所 在 的 同一 个 文件 夹 下 创建 了 第 二 个 文件 。 该 文件 的 名 称 将 具有 与 源 文件 名 称 
相同 的 词 干 ， 但 是 该 词 干将 使 用 字符 串 _stats 和 后 级 .json 来 进行 扩展 。 


10.3 ”计算 counter 对 象 中 值 的 平均 值 


statistics 模块 包含 许多 有 用 的 函数 ， 这 些 函 数 都 基于 每 个 单独 的 数据 样本 进行 处 理 。 然 而 ， 
在 某 些 情况 下 , 数据 已 被 分 组 为 桶 (bin ), 那么 可 以 用 collections .Counter 对 象 奉 代 简 单 的 列表 ， 
得 到 的 结果 将 是 ( 值 , 频率 ) 对 而 不 是 值 。 

如 何 对 ( 值 , 频率 ) 对 进行 统计 处 理 ? 


10.3.1 准备 工作 


均值 的 常用 定义 是 所 有 值 的 总 和 除 以 值 的 数量 ， 公 式 如 下 : 
2 


cieC 






































pc = 
n 


其 中 ， 数 据 集 C 被 定义 为 一 个 独立 值 序列 : C= {co, c1, c2,…, Cj_1}。 该 集合 的 均值 yw 等 于 所 有 值 的 总 
和 除 以 值 的 个 数 n。 
稍微 改变 一 下 公式 的 形式 有 助 于 归纳 均值 的 定义 。 


S(C)= > 0 
n(C)= D1 
S(O) 的 值 是 所 有 值 的 总 和 。n(C) 的 值 是 使 用 1 替代 每 个 值 的 总 和 。 实 际 上 ，S(O) 是 cr 的 总 和 ，n(O 〇 是 
cr 的 总 和 。 可 以 使 用 简单 的 Python 生成 器 表达 式 轻松 地 实现 这 些 定义 。 
我 们 可 以 在 很 多 地 方 重用 这 些 定义 。 具 体 来 说 ， 现 在 可 以 用 以 下 公式 定义 均值 kes 10 
Lc= S(C)/n(O) 
我 们 将 使 用 这 种 通用 思想 为 已 经 分 组 到 桶 里 的 数据 提供 统计 计算 。 counter 对 象 可 以 提供 值 和 值 
的 频率 。counter 对 象 的 数据 结构 可 以 描述 为 如 下 形式 : 
F= {co0: fo, ci1: fi, C2: fs, Cm: fn} 
值 6 和 频率 构成 了 一 对 值 。 对 这 对 值 做 两 个 小 小 的 修改 就 可 以 对 $(F) 和 FF) 执行 类 似 的 计算 。 

































































S$(F)= 》 三 xc 
cfieF 
A(F)= > fixl 


cifieF 
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我 们 定义 了 S(F) 来 使 用 频率 和 值 的 乘积 ， 同 样 定义 了 AF) 来 使 用 频率 。 我 们 给 每 个 函数 的 名 字 
加 上 了 “”， 以 表明 这 些 函 数 不 适 用 于 简单 的 值 列表 。 这 些 函 数 适 用 于 ( 值 , 频率 ) 对 列表 。 
这 些 定 义 需 要 用 Python 来 实现 。 例 如 ， 可 以 使 用 counter 对 象 : 


>>> from collections import Counter 
>>> raw_ data = [8, 8, 8, 8, 8, 8, 8, 19, 8, 8, 8] 
>>> series 4 x = Counter(raw data) 


这 些 数据 来 自 10.2 节 。countetr 对 象 如 下 所 示 : 


>>> series 4 x 
Counter({8: 10, 19: 1}) 


该 对 象 显示 了 一 组 样本 数据 中 的 各 个 值 及 其 频率 。 



































10.3.2 ”实战 演练 


(1) 定义 Counter 的 总 和 : 


>>> def counter sum(counter): 
return sum(f*c for c,f in counter.items()) 


使 用 方式 如 下 : 


>>> counter sum(series 4 x) 
99 


(2) 定 义 counter 中 值 的 总 数 : 


>>> def counter len(counter): 
return sum(f for c,f in counter.items()) 


使 用 方式 如 下 : 


>>> counter len(series 4 x) 
11 


(3) 组 合 总 和 以 及 值 的 总 数 ， 计 算 已 经 放 到 桶 中 的 数据 的 均值 : 


>>> def counter mean(counter): 

return counter sum(counter)/counter len(counter) 
>>> counter mean(series 4 x) 
9.0 














10.3.3 ”工作 原理 
Counter 对 象 是 一 个 字典 ， 其 键 是 待 计算 的 实际 值 ， 值 是 每 个 元 素 的 频率 。 这 意味 着 items () 
方法 将 产生 可 以 用 于 其 他 计算 的 值 和 频率 信息 。 


我 们 将 SCF) 和 FF) 的 定义 转换 为 了 生成 器 表达 式 。 因 为 Python 的 设计 严格 遵循 数学 形式 ， 所 以 
代码 以 相对 直接 的 方式 遵循 数学 定义 。 
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10.3.4 ”补充 知识 
为 了 计算 方差 和 标准 差 ， 还 需要 另外 两 种 变 体 。 我 们 可 以 定义 一 个 频率 分 布 的 总 体 均值 几 : 
Hr = > fixc, 


cfieF 
其 中 c 是 counter 对 象 的 键 , f 是 counter 对 象 给 定 键 的 频率 值 。 
方差 VARr 可 以 用 基于 均值 yw 的 方式 来 定义 ,公式 如 下 : 
> f x (Ci — Mp) 


cifieF 


En 
cifieF 


该 公式 首先 计算 值 c;, 和 均值 wx 之 间 的 差 ,然后 通过 该 值 的 频率 f 加 权 ， 再 用 这 些 加 权 差 的 总 和 除 以 值 
的 总 数 新 ) 减 1。 
标准 差 ur 是 方差 的 平方 根 。 























VAR ,= 




















ar = VVAR, 


该 版 本 的 标准 差 计算 方法 的 数值 稳定 性 较 好 ， 因 此 应 当 优 先 选用 。 该 方法 需要 遍历 数据 两 次 , 但 
对 于 某 些 边界 情况 ， 付 出 代价 进行 多 次 遍历 要 比 错误 的 结果 更 好 。 

标准 差 计算 的 男 一 种 变 体 不 依赖 于 均值 wr。 该 版 本 的 数值 稳定 性 不 如 前 面 的 版 本 。 这 种 计算 方法 
分 别 计算 值 的 平方 和 、 值 的 总 和 以 及 值 的 总 数 。 


n= > 大 


cfieF 





























b> io] 


cifieF 


1 


VAR, = 一 





x| 5 fixe?- 
cifieF 


n 











这 种 方法 需要 一 个 额外 的 求 和 计算 。 我 们 需要 计算 平方 值 的 和 $2(F)= 》 fixe?。 


cifieF 
>>> def counter sum 2(counter): 
return sum(f*c**2 for c,f in counter.items()) 


给 定 六 RF) 、$(F) 和 5S?(F) 这 3 个 求 和 函数 ， 就 可 以 定义 分 组 汇总 的 方差 了 。 


>>> def counter variance(counter): 
n = counter len(counter) 
return (counter sum 2(counter)-(counter sum(counter)**2)/n)/(n-1) 


counter_variance() 国 数 非常 接近 数学 定义 。Python 版 本 的 定义 将 1/(n - 1) 项 作为 次 要 优化 。 
可 以 使 用 counter_variance() 国 数 来 计算 标准 差 。 
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>>> import math 


>>> def counter stdev(counter): 
return math.sqrt (counter variance(counter)) 


然后 会 看 到 如 下 代码 : 





>>> counter variance(series 4 x) 


11.0 


>>> round(counter stdev(series 4 x), 2) 


3.32 











还 可 以 利用 counter 对 象 的 elements () 方 法 。 这 种 方法 虽然 简单 ， 但 是 将 创建 一 个 可 能 很 大 


























的 中 间 数 据 结构 。 


>>> import statistics 


>>> statistics.variance(series 4 x.elements()) 


11.0 





我 们 使 用 counter 对 象 的 elements () 方 法 创建 了 包括 Counter 对 象 中 所 有 元 素 的 扩展 列表 。 
可 以 计算 这 些 元 素 的 统计 汇总 。 对 于 一 个 非常 大 的 counter 对 象 ， 这 种 方法 将 产生 一 个 非常 大 的 中 


间 数 据 结 构 。 


10.3.5 ”延伸 阅读 





10.4 ”计算 相关 系数 


10.2 节 和 10.3 节 研究 了 汇总 数据 的 方法 。 这 些 实例 展示 了 计算 中 心 值 、 方 差 和 极 值 的 方法 。 











口 6.3 节 从 略微 不 同 的 视角 讨论 了 该 问题 。 该 实例 的 目标 只 是 隐藏 一 个 复杂 的 数据 结构 。 
D 10.9 节 将 解决 一 些 效 率 问题 。 该 实例 将 介绍 通过 遍历 数据 一 次 计算 多 种 和 的 方法 。 























男 一 种 常见 的 统计 汇总 涉及 两 组 数据 之 间 的 相关 程度 。Python 的 标准 库 不 直接 支持 这 种 计算 。 
皮尔 了 还 相关 系数 ( Pearson’sr ) 是 一 种 常用 的 相关 性 度量 。r 值 的 范围 在 -1 和 +1 之 间 ， 表 示 数 据 


值 之 间 彼 此 相关 的 概率 。 






































r 值 为 0 表示 数据 是 随机 的 ,r 值 为 0.95 表明 95% 的 值 相关 , 5% 的 值 不 相关 。r 值 为 -0.95 表明 95% 
的 值 负 相 关 ， 即 当 一 个 变量 增 大 时 ， 另 一 个 变量 将 减 小 。 
如 何 确 定 两 组 数据 是 否 相 关 ? 








10.4.1 准备 工作 
皮尔 逊 相关 系数 的 一 种 表达 


7 











形式 如 下 所 示 : 
nD Xi > 
Y"5 (Fs) YE (5») 

















该 表达 式 依赖 于 大 量 数据 集 不 同 部 分 的 单独 汇总 。》z 运算 符 可 以 通过 Python 的 sum() 函数 来 实现 。 
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我 们 将 使 用 10.2 节 中 的 数据 。 通 过 以 下 代码 读 取 这 些 数 据 : 


>>> from pathlib import Path 
>>> import json 














>>> from collections import OrderedDict 

>>> source path = Path('code/anscombe.json') 

>>> data = json.loads(source path.read text(), 
object pairs hook=OrderedDict) 


我 们 先 使 用 Path 类 定义 了 数据 文件 的 路 径 ， 然 后 使 用 Path 对 象 从 数据 文件 中 读 取 文本 。 
json.loadas () 使 用 该 文本 从 JSON 数据 中 构建 Python 对 象 。 


我 们 在 函数 中 添加 了 object_pairs_hook 参数 ， 因 此 可 以 使 用 orqeredDict 类 替代 默认 的 
dict 类 来 构建 NON。 这 种 方法 将 保留 源 文档 中 元 素 的 原始 顺序 。 

可 以 通过 如 下 方式 检查 数据 : 

>>> [item['series'] for item in datal 

[iy STL Ny STILT, “TY 

>>> [len(item['data']) for item in datal] 

Lily L117 -LT1y “11) 






































完整 的 JSON 文档 是 带 键 ( 比如 工 ) 的 子 文档 序列 。 每 个 子 文档 有 两 个 字段 
data 值 中 有 一 列 我 们 想 要 表征 的 观测 值 ， 每 个 观测 值 都 包含 一 对 值 。 


series 和 data。 








JSON 文档 的 示例 如 下 : 
[ 
{ 
SSELSST TI"? 
"dataw ,| 
{ 
x L100 
y 8.04 
} 
By 
y 59D 


}, 0 


这 组 数据 有 4 个 系列 ， 每 个 系列 都 表示 一 个 字典 列表 结构 。 在 每 个 系列 中 ， 每 个 数据 项 都 是 一 个 
具有 x 键 和 y 键 的 字典 。 





10.4.2 ”实战 演练 




















(1) 确定 表达 式 需 要 的 各 种 求 和 运算 。 对 于 该 表达 式 ， 如 下 所 示 。 
口 > 区 
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口 人 
DO >», 
口 
OD Dy 
Dz=>1=>1 


XieX yieY 

















假设 每 个 数据 的 值 都 为 1， 那么 可 以 将 总 数 n 定义 为 源 数 据 集 中 各 个 数据 的 总 和 ， 也 可 以 视 为 x 





或 2。 


(2) 从 math 模块 导入 sqrt () 函数 。 


from math import sqrt 


(3) 定义 包装 计算 过 程 的 函数 。 


def correlation(data): 
































(4) 使 用 内 置 的 sum() 函数 编写 各 种 求 和 运算 。 这 些 语 名 应当 在 函数 定义 中 缩 进 。 我 们 将 使 








参数 的 值 ， 即 出 人 输入 数据 必须 有 两 个 键 : x 和 y。 


sumxy = sum(i['x']*i['y'] for i in data) 
sumx = sum(i['x'] for i in data) 

sumy = sum(i['y'] for i in data) 

sumx2 = sum(i['x']**2 for i in data) 
sumy2 = sum(i['y']**2 for i in data) 


n= sum(l for i in data) 


























(5) 根据 各 种 求 和 运算 编写 的 最 终 计算 。 确 保 适 当地 缩 进 。 如 需要 更 多 帮助 ， 请 参阅 第 








一 
(n*sumxy - sumx*sumy) 
/ (sqrt (n*sumx2-sumx**2) 
) 

return 工 

















*sqrt (n*sumy2-sumy**2)) 


现在 可 以 确定 各 系列 之 间 的 相关 程度 了 。 


for series in data: 


r = correlation(series['data']) 


print (series['series'], 


输出 如 下 所 示 : 


上 ES 082 

TL Es "0 a82 
EEY 人 L082 
VE=" 0 


Es OUNG CES, 2)) 














月 aata 








所 有 4 个 系列 具有 大 致 相同 的 相关 系数 ， 但 是 这 并 不 意味 着 这 些 系 列 是 相互 关联 的 。 该 结果 只 是 


说 明 在 每 个 系列 中 ，82% 的 x 值 预测 





了 一 个 y 值 。 这 几乎 正好 是 每 个 系列 11 个 值 
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10.4.3 ”工作 原理 
整个 公式 看 起 来 相当 复杂 , 但 是 可 以 分 解 成 多 个 单独 的 求 和 运算 以 及 一 个 组 合 这 些 计算 的 最 终 计 
算 。 在 Python 中 ， 可 以 非常 简洁 地 表达 每 个 求 和 操作 。 
通常 ， 求 和 的 数学 符号 看 起 来 应 该 如 下 所 示 : 
yx 





该 符号 可 以 非常 直接 地 转化 为 Python 代码 。 


sum(item['x'] for item in data) 
最 终 的 相关 比 可 以 稍微 简化 一 些 。 当 用 更 具 Python 风格 的 SCo) 蔡 代 看 起 来 更 复杂 的 > x 时 , 可 以 
更 好 地 观察 方程 式 的 整体 形式 。 











nS(xy)—S(x)S(y) 
VnS(x’) -Sx) Vns(y’) -SO 
虽然 看 起 来 很 简单 ， 但 这 种 实现 并 不 是 最 理想 的 。 每 计算 一 种 归 约 ， 这 种 实现 都 需要 对 数据 进行 
6 次 遍历 。 作 为 一 种 概念 验证 ， 它 的 效果 很 好 ， 其 优点 在 于 便于 演示 程序 的 工作 原理 。 这 也 是 创建 单 
元 测试 和 重 构 算法 以 优化 处 理 的 起 点 。 


10.4.4 ”补充 知识 


这 个 算法 虽然 清晰 ,但 效率 低下 。 更 有 效 的 版 本 应 当 只 处 理 一 次 数据 。 为 了 达到 该 目的 ， 必 须 编 
写 一 个 显 式 的 for 语句 ， 只 遍历 一 次 数据 。 在 for 语句 的 循环 体 中 进行 各 种 求 和 运算 。 
优化 算法 如 下 所 示 : 



































SUM = Su my SM Uy EE Ns 
for item in data: 

x, y = item['x'], item['y'] 

oe 

Sumx 二 = X 

sumy += Y 


sumxy += xX * Y 
SUIX2 += X**2 
Sumy2 += y**2 


首先 将 一 些 结果 变量 初始 化 为 0， 然 后 从 数据 源 aata 累积 这 些 结果 变量 值 。 由 于 只 使 用 了 一 次 
数据 值 ， 因 此 该 方法 适用 于 任何 可 迭代 的 数据 源 。 

从 这 些 总 和 计算 x 的 过 程 不 变 。 

最 重要 的 是 , 算法 的 初始 版 本 和 修改 版 本 之 间 的 并 列 结构 被 优化 为 能 够 在 一 次 遍历 中 计算 所 有 的 
汇总 值 。 这 两 个 版 本 明显 的 对 称 性 有 助 于 验证 两 件 事 情 : 
口 初始 实现 匹配 相当 复杂 的 公式 ; 
口 优化 实现 匹配 初始 实现 和 复杂 的 公式 。 
这 种 对 称 性 结合 适当 的 测试 用 例 说 明 我 们 的 实现 是 正确 的 。 
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10.5 ”计算 回归 参数 


在 确定 两 个 变量 具有 某 种 关系 之 后 ， 下 一 步 就 是 确定 一 种 从 自 变量 的 值 估计 因 变 量 的 方法 。 对 于 
大 多 数 现实 世界 的 数据 ,许多 微小 的 因素 都 会 导致 数据 围绕 中 心 趋势 随机 变化 。 我 们 将 估算 一 种 最 小 
化 这 些 错 误 的 关系 。 
在 最 简单 的 情况 下 ， 变 量 之 间 的 关系 是 线性 的 。 当 我 们 绘制 数据 点 时 ， 它 们 趋向 于 聚集 在 一 条 直 
线 附 近 。 在 其 他 情况 下 ， 可 以 通过 计算 对 数 或 者 寡 运 算 ， 调 整 其 中 一 个 变量 来 创建 一 个 线性 模型 。 在 
更 极端 的 情况 下 ， 需 要 通过 多 项 式 来 创建 模型 。 
如 何 计算 两 个 变量 之 间 的 线性 回归 参数 呢 ? 


10.5.1 准备 工作 
估算 回归 线 的 方程 如 下 ; 























































































































?= ax+ 
给 定 自 变量 *， 根 据 x 参数 和 及 参数 计算 因 变量 了 的 估计 值 或 预测 值 。 

我 们 的 目标 是 找到 a 和 6 的 值 ， 它 们 能 产生 估计 值 和 实际 值 ”之 间 的 最 小 整体 误差 。 的 计算 
公式 如 下 所 示 : 























P= r,(o./o,) 
其 中 ,是 相关 系数 ， 请 参阅 10.4 节 。o, 为 x 的 标准 差 ， 该 值 由 statistics 模块 直接 给 出 。 
4 的 计算 公式 如 下 所 示 : 




















=4,- Ph. 

其 中 心 是 x 的 均值 ， 也 由 statistics 模块 直接 给 出 。 
我 们 将 使 用 10.2 节 中 的 数据 。 通 过 以 下 代码 读 取 这 些 数据 : 
>>> from pathlib import Path 
>>> import json 
>>> from collections import OrderedDict 
>>> source path = Path('code/anscombe.json') 


>>> data = json.loads(source path.read text(), 
object pairs hook=OrderedDict) 


我 们 先 使 用 Path 类 定义 了 数据 文件 的 路 径 ， 然 后 使 用 Path 对 象 从 数据 文件 中 读 取 文本 。 
json.loads () 使 用 该 文本 从 JSON 数据 中 构建 Python 对 象 。 

由 于 我 们 在 函数 中 添加 了 object_pairs_hook 参数 ,因此 可 以 使 用 oraqereaDict 类 替代 默认 
的 aict 类 来 构建 JSON。 这 种 方法 将 保留 源 文档 中 元 素 的 原始 顺序 。 

可 以 通过 如 下 方式 检查 数据 : 

>>> [item['series'] for item in datal] 

['I', 'II', 'III', 'IV'] 


>>> [len(item['data']) for item in datal] 
[11, 11, 11, 11] 
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完整 的 JSON 文档 是 带 键 ( 比如 工 ) 的 子 文档 序列 。 每 个 子 文档 有 两 个 字段 series 和 data。 
data 值 中 有 一 列 我 们 想 要 表征 的 观测 值 ， 每 个 观测 值 都 包含 一 对 值 。 











JSON 文档 的 示例 如 下 : 
[ 
{ 
下 总 全 站 全 总 和 TES 
"data": [ 
x 10.0 
y 8.04 
} 
{ 
XX BQ 
y 6.95 


] 


这 组 数据 有 4 个 系列 ， 每 个 系列 都 表示 一 个 字典 列表 结构 。 在 每 个 系列 中 ， 每 个 数据 项 都 是 一 个 
有 具 有 x 键 和 y 键 的 字典 。 


10.5.2 ”实战 演练 


(1) 导入 correlation() 国 数 和 statistics 模块 。 


from ch10_r03 import Correlation 
import statistics 


(2) 定义 一 个 产生 回归 模型 的 regression () 函数 。 


def regression(data): 








(3) 计算 各 种 必要 的 值 。 

mx = statistics.mean(i['x'] for i in data) 
my = statistics.mean(i['y'] for i in data) 
s_ x = statistics.stdev(i['x'] for i in data) 
Sv "etatlisties. stdevr (Ll Ny] toOr 1 Hn:date) 


r_ xy = correlationl(data) 


(4) 计算 8 值 和 a 值 。 


BD ey 
a ye 
return a, b 


可 以 使 用 regression() 函数 计算 回归 参数 ， 如 下 所 示 : 


for series in data: 
a, b = regression(series['data']) 
print (series['series'], 'y=', roundl(a, 2), '+', round(b,2), '*x') 
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输出 结果 显示 了 通过 给 定 的 x 值 预测 所 期 望 y 值 的 公式 。 输 出 如 下 所 示 : 


下 -YE 


于 0357 兴 沈 


LT. a0 E05 *% 
3 
LY ye 0 E05 < 





在 所 有 情况 下 ， 方 程式 都 是 =3+ 了 。 这 个 估计 似乎 很 好 地 预测 了 y 的 实际 值 。 


10.5.3 ”工作 原理 


计算 a 值 和 








18 值 的 公式 并 不 复杂 。 计 算 8 值 的 公式 可 以 分 解 为 两 个 标准 差 所 使 用 的 相关 系数 值 。 

















计算 a 值 的 公式 使 用 了 8 值 以 及 两 个 均值 。 前 面 的 实例 介绍 了 这 些 值 的 计算 方法 。 相 关 性 计算 包含 实 


际 的 复杂 度 。 


























该 实例 的 核心 设计 技术 是 使 用 尽 可 能 多 的 现 有 特性 来 构建 新 特性 。 这 样 就 可 以 将 测试 用 例 传 播 开 
来 ， 从 而 广泛 地 使 用 ( 和 测试 ) 基本 算法 。 


10.4 节 的 尾 

















E 能 分 析 很 重要 ， 也 适用 于 本 实例 。 为 了 获得 相关 系数 以 及 各 种 均值 和 标准 差 ， 本 实例 


的 处 理 过 程 对 数据 分 别 进行 了 5 次 遍历 。 





作为 一 种 





念 证 明 ， 这 种 实现 表明 算法 是 有 效 的 。 这 也 是 创建 单元 测试 的 起 点 。 给 定 一 个 算法 ， 


然后 重 构 代 码 来 优化 处 理 是 有 意义 的 。 





10.5.4 ”补充 知识 

前 面 显 示 的 算法 虽然 清晰 ， 但 效率 很 低 。 为 了 只 处 理 一 次 数据 ， 必 须 编写 一 个 显 式 的 for 语句 ， 
只 遍历 一 次 数据 。 在 for 语句 的 循环 体 中 进行 各 种 求 和 运算 ， 还 需要 计算 从 总 和 派生 出 来 的 一 些 值 ， 
包括 均值 和 标准 差 。 


sumx = Sumy = Sumxy = Sumx2 = sumy2 =n=0 














for item 
X, Y 
n += 
sumx 
sumy 





























in data: 
= item['x'], item['y'] 


Xx 


sumxy += xX * Y 


Sumx2 

sumy2 
m x 
my 
SsS_x 
Sy sqr 
Fy 二 (i 


I et | 


二 二 :下 
a=my- 


过 


A A 


sumx / n 
sumy / n 
sqrt((n*sumx2 - sumx**2 


J (TR (Ty ) 
t((n*sumy2 - sumy**2)/(n*(n-1))) 
*sumxy = sumx*sumy) / (sqrt (n*sumx2-sumx**2)*sqrt (n*sumy2-sumy**2)) 
* S_YyY/S.X 
马帮 次 





首先 将 一 些 结果 变量 初始 化 为 0， 然 后 从 数据 源 aata 累积 这 些 结果 变量 值 。 由 于 只 使 用 了 一 次 
数据 值 ， 因 此 该 方法 适用 于 任何 可 和 迭代 的 数据 源 。 
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r_xy 的 计算 与 前 面 的 例子 相 比 没有 任何 变化 ,a 值 或 8 值 ( 即 a 和 Pb) 的 计算 也 没有 变化 。 由 于 
这 些 结果 与 前 一 个 版 本 相同 ， 因 此 我 们 相信 这 种 优化 将 会 得 到 相同 的 结果 ,但 是 只 用 遍历 一 次 数据 。 


10.6 计算 自 相 关 


在 许多 情况 下 ， 事 件 会 重复 循环 发 生 。 如 果 数 据 与 自身 相关 ， 则 称 之 为 自 相 关 。 某 些 数据 可 能 具 
有 明显 的 时 间 间 隔 ， 这 是 因为 数据 受 一 些 可 见 的 外 部 因素 影响 ， 比 如 季节 或 潮汐 。 某 些 数据 的 时 间 间 
隔 可 能 难以 辨别 。 

10.4 刷 讨论 了 测量 两 组 数据 之 间 相 关 性 的 方法 。 

如 果 怀 疑 具有 周期 性 数据 ， 那 么 如 何 利用 前 面 的 相关 函数 来 计算 自 相关 ? 


10.6.1 ”准备 工作 


自 相关 背后 的 核心 概念 是 通过 时 间 偏 移 7 来 建立 相关 性 。 自 相关 的 测度 有 时 表示 为 rmD， 即 x 
和 x 之 间 的 相关 性 ， 时 间 偏 移 为 7。 

假设 有 一 个 便捷 的 相关 函数 RG, y)， 它 比较 两 个 序列 [xo, xb x2,…] 和 [yo, yi, y,…]， 并 返回 两 个 序 
列 之 间 的 相关 系数 。 













































































































































































ry = R(xo, x1, Xa, ***], [yo, y1, y2, ***]) 
通过 在 索引 值 中 使 用 时 间 偏 移 ， 可 以 将 其 应 用 于 自 相关 。 
ra(D) = R(Lxo, xi, 2 Exorp xp X2+7, 下) 

我 们 计算 了 x 值 之 间 的 相关 系数 ,x 值 之 间 的 相互 偏 移 量 为 T7。 如 果 7 = 0， 那 么 将 每 个 元 素 与 其 
自身 进行 比较 ， 相 关系 数 为 (0)= 1 

本 实例 的 背景 信息 是 一 些 可 能 具有 周期 性 信号 的 数据 。 数 据 源 自 http://www.esrl.noaa.gov/gmd/ 
ccgg/trends/。 可 以 访问 ftp://ftp.cmdl.noaa.gov/ccg/co2/trends/co2 mm mlo.txt 来 下 载 原 始 数据 文件 。 

该 文件 有 一 个 以 # 开 头 的 行 组 成 的 序言 。 这 些 行 必须 从 数据 中 过 滤 掉 。 我 们 将 使 用 8.5 节 中 的 方法 
来 去 除 这 些 无 用 的 行 。 

剩余 的 行 以 空格 作为 值 之 间 的 分 隔 符 共 分 为 7 列 。 我 们 将 使 用 9.5 节 中 的 方法 来 读 取 CSV 数据 。 
在 本 例 中 ，CSYV 中 的 逗号 将 被 空格 替代 。 因 为 最 终 得 到 的 结果 用 起 来 有 些 麻 烦 ， 所 以 我 们 将 使 用 9.11 
节 中 的 方法 ， 用 正确 转换 的 值 创建 一 个 更 有 用 的 命名 空间 。 在 该 实例 中 ， 我 们 导入 了 csv 模块 。 


import csy 
处 理 文件 物 理 格 式 的 函数 有 两 个 。 第 一 个 函数 过 滤 注释 行 ， 或 者 说 通过 不 是 注释 的 行 。 
def non_ comment_iter(source): 
for line in source: 
if line[0] == '#': 
continue 
yield line 


non_comment_iter() 函数 将 遍历 给 定 的 源 数 据 ， 并 拒绝 以 # 开 头 的 行 。 所 有 其 他 行 都 将 原封 不 
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动 地 通过 。 
non_comment_iter1() 函数 可 用 于 构建 处 民 


有 效 数 据 行 的 CSV 读 取 絮 。 读 取 带 需要 一 些 额 外 的 











配置 来 定义 数据 列 和 所 涉及 CSV 方言 的 详细 信 


def raw_data_iter(source): 


header = ['year', 'month', 
'interpolated', 'trend' 
rdr = csv.DictReader (source, 
header, delimiter="' ' 


return rdr 


raw_data_iter() 限 数 定义 7 个 列 标题 ， 
额外 的 空格 。 必 须 去 除 该 函数 输入 中 的 注释 行 ， 























自 


/ENO 


'decimal_date', 


'average', 
'days'] 


/7 


skipinitialspace=True) 





下 


还 指定 空格 为 列 分 隔 符 ， 并 且 可 以 跳 过 每 列 数 据 前 面 
一 般 使 用 过 滤器 函数 non_comment_iter()。 














该 函数 的 结果 是 一 些 数据 行 ， 形式 为 具有 7 个 键 的 字典 ， 如 下 所 示 : 
[ft’averadger sr T3157Try Tdayes ss Tal'} Yeadr ys IIS8; “trend's "314,62", 
'decimal_date': '1958.208', 'interpolated': '315.71', 'month': '3'}, 
{" verage ss +37 A457 davea sr m1 year* 1958", trend"?. :315.295; 
'decimal_date': '1958.292', 'interpolated': '317.45', 'month': '4'}, 
etc. 
因为 这 些 值 都 是 字符 串 ， 所 以 需要 进行 一 次 清洗 和 转换 。 下 面 是 一 个 可 以 在 生成 器 表达 式 中 使 用 的 








行 清洗 函数 。 该 函数 将 构建 一 个 simple 
定义 。 
from types import SimpleNamespace 
def cleanse (row): 
return SimpleNamespacel 
year= int (row['year']), 
month= int (row['month']), 


amespace 对 象 ， 





因此 还 需要 导入 simpleNamespace 对 象 的 


decimal_date= float (row['decimal_date']), 


average= float (row['average'] 


) ， 


interpolated= float (row['interpolated']), 


trend= float (row['trend']), 
days= int (row['days']) 
) 


该 函数 通过 将 转换 函数 应 用 于 字典 中 的 值 ， 
因为 大 部 分 元 素 都 是 浮 点 数 ， 所 以 我 们 使 用 了 f 
使 用 int () 函数 。 






































把 每 个 字典 行 转换 为 一 个 simpleNamespace 对 象 。 
loat () 函数 。 还 有 一 小 部 分 元 素 是 整数 ,我 们 对 它们 





可 以 编写 以 下 类 型 的 生成 器 表达 式 ， 对 每 一 行 原 始 数据 应 用 清洗 函数 : 


cleansed_data 


上 述 代码 将 cleanse () 函数 应 用 于 每 行 数据 。 


(cleanse (row) 


for row in raw_data) 


我 们 通常 期 望 这 些 数 据 行 来 自 raw_gdata_iter ()。 


将 cleanse() 函数 应 用 于 原始 数据 行将 创建 如 下 数据 : 


[namespace (average=315.71, days=-1, 
interpolated=315.71, month=3, 
namespace (average=317.45, days=-1, 
interpolated=317.45, month=4, 
etc. 


decimal_date=1958.208, 
trend=314.62, 
decimal_date=1958.292, 
Erend=3.L5297 


Year=1958) ， 


Year=1958) ， 
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该 数据 便于 使 用 。 可 以 通过 简单 的 名 称 来 标识 各 个 字段 , 数据 值 也 已 经 转换 为 了 Python 的 内 置 数 
据 结构 。 
这 些 函 数 可 以 组 合 为 表达 式 栈 ， 如 下 所 示 : 


def get_datal(source file): 
non_comment_data = non comment_iter(source file) 
raw_data = raw_data_iter (non_comment_data) 
cleansed data = (cleanse(row) for row in raw_data) 
return cleansed_ data 


生成 名 函数 ee 生成 带 表 达 式 组 成 的 栈 。 该 函数 返回 一 个 产生 











源 数据 中 各 行 的 迭代 器 。non_comment_iter () 函数 读 取 足够 的 行 , 生成 单个 非 注 释 行 。raw_gdata_ 





iter () 函数 将 解析 CSV 行 并 产生 具有 i 8 

生成 器 表达 式 cleansed_qdata 将 cleanse() 国 数 应 用 于 原始 数据 的 每 个 字典 。 每 个 行 都 是 非常 
方便 的 simpleNamespace 数据 结构 ，F ee 使 用 。 

这 个 生成 器 函数 将 所 有 单独 的 步骤 绑 定 为 一 个 转换 流水 线 。 当 需要 改变 步 又 时 ， 它 就 是 关注 点 ， 
我 们 可 以 在 此 添加 过 滤器 ， 或 者 蔡 换 解析 函数 或 清洗 函数 。 

使 用 get_qata() 函数 的 上 下 文 如 下 所 示 : 


source_ path = Path('co2 mm mlo.txt') 
with source path.open() as source file: 
for row in get_datal(source file): 
print (row.year, row.month, row.average) 


我 们 需要 打开 一 个 源 文件 ， 然 后 把 它 提 供给 cet_aata() 函数 。 该 函数 将 以 易于 统计 处 理 
输出 每 一 行 。 


10.6.2 ”实战 演练 
(1) 从 ch10_r03 模块 导入 correlation() 图 数 。 


from ch10_r03 import Correlation 


(2) 从 源 数 据 获取 相关 的 时 间 序 列 数 据 项 。 


Co2_ppm = list(row.interpolated 
for row in get_datal(source file)) 


本 实例 将 使 用 插值 数据 。 如 果 尝 试 使 用 平均 数据 ， 就 会 有 报告 间隔 ( reporting gap )， 这 将 迫使 我 
们 查找 没有 间隔 的 周期 。 插 值 数据 则 具有 填充 间隔 的 值 。 

我 们 通过 生成 器 表达 式 创建 了 一 个 1ist 对 象 ， 因 为 我 们 将 进行 多 个 汇总 操作 。 

(3) 对 多 个 时 间 偶 移 了 计算 相关 性 。 我 们 将 使 用 1 到 20 个 周期 的 时 间 偏 移 量 。 由 于 按 月 收集 数据 ， 
因此 我 们 猜测 T= 12 具有 最 高 的 相关 性 。 


for tau in range(1,20): 
data = [El rR 
for x,y in zip(co2_ppm[:-tau], co2_ppm[ltau:])] 
r_tau_0 = correlation(data[:60]) 
print (tau, r_tau 0) 
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的 形式 
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出 自 10.4 节 的 correlation () 函数 需要 一 个 含有 x 键 和 y 键 的 小 字典 
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的 数组 。 我 们 使 用 zip () 函数 
DQ co2_ppm[:-taul] 





DQ co2_ppm[tau: 





组 合 了 两 个 数据 序列 。 


zip() 函数 将 组 合 每 个 aata 切片 的 值 。 第 一 个 切片 从 头 开始 。 第 二 个 切片 从 tau 位 置 开 始 。 通 
党 第 二 个 序列 会 短 一 些 ， 当 序列 耗 尽 时 ，zip () 函数 将 停止 处 理 。 
使 用 co2_ppm[ : -tau] 作 为 zip() 函数 的 一 个 参数 值 , 说 明 我 们 跳 过 了 序列 结尾 的 一 些 元 素 。 我 





们 跳 过 了 从 第 二 个 序列 开头 省 略 的 相同 数量 的 元 素 。 


























1> 



































我 们 仅 使 用 前 60 个 值 来 计算 各 种 时 间 偏 移 值 的 自 相关 。 数 据 按 月 提供 。 我 们 可 以 看 到 非常 强 的 
年 度 相 关 性 。 下 面 强调 了 这 一 行 输出 。 
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当时 间 偏 移 值 为 12 时 ，ms(12) = 0.981。 数 据 的 所 有 子 集 几 乎 都 有 类 似 的 自 相 关 。 这 种 高 度 的 相 

















关 性 证 实 了 数据 的 年 度 周 期 性 








[e) 





整个 数据 集 包含 近 700 个 样本 ,时 间 跨 度 为 58 年 。 事 实证 明 ， 周 期 性 变化 信和 号 在 整个 时 间 跨 度 














内 并 不 清晰 。 这 意味 着 还 有 一 个 更 长 的 周期 信号 被 年 度 变 化 信号 掩盖 了 。 
另 一 个 信和 号 的 存在 表明 正在 发 生 更 复杂 的 事情 。 这 种 效应 的 时 间 尺 度 超过 5 年， 需要 进一步 分 析 。 





10.6.3 ”工作 原理 














切片 是 Python 的 一 种 优 





特性 。4.4 节 介 绍 了 切 分 列表 的 基础 知识 。 在 进行 自 相关 计算 时 ， 数 组 




















切片 为 我 们 提供 了 一 个 非常 好 





的 工具 ， 可 以 在 复杂 度 很 低 的 情况 下 比较 两 个 数据 子 集 。 


算法 的 基本 要 素 如 下 所 示 : 


datar 人 
for x,y in zip(co2_ppm[:-tau], co2_ppm[tau:])] 
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这 些 数据 对 由 co2_ppm 序列 两 个 切片 的 A=a zip () 构 建 。co2_ppnm 序列 的 两 个 切片 构建 用 于 创 
建 临 时 对 象 aata 的 预期 (x，y) 对。 给 定 data 对 象 ， 再 使 用 现 有 的 correlation () 取 数 计算 相关 


度量 。 





10.6.4 ”补充 知识 


可 以 使 用 类 似 的 数组 切片 技术 ， 在 整个 数据 集中 重复 观察 周期 为 12 个 月 的 季节 性 周期 。 在 本 例 
中 ,我 们 使 用 了 以 下 代码 : 

r tau 0 = correlation(data [: 60]) 

上 述 代 码 使 用 了 所 有 可 用 的 693 个 样本 中 的 前 60 个 样本 。 我 们 可 以 在 任意 位 置 开 始 切片 ， 并 使 
用 任意 大 小 的 切片 来 确认 周期 是 否 贯穿 整个 数据 。 

我 们 可 以 创建 一 个 模型 显示 周期 为 12 个 月 的 数据 行为 。 因 为 模型 中 有 一 个 重复 的 周期 ， 所 以 
最 有 可 能 使 用 正弦 函数 来 建 模 。 模 型 可 以 表现 为 如 下 形式 : 
$=Asin(f(x-9)+K 

因为 正弦 函数 本 身 的 均值 为 0， 所 以 天 因子 是 给 定 的 12 个 月 周期 的 均值 。f (x -gp ) 函 数 将 每 个 月 
份 数 转换 为 -2x < fc -p ) < 2 范围 内 的 值 。 像 Fo = 2x((x-6)/12) 这 样 的 函数 可 能 是 恰当 的 。 最 后 ， 
缩放 因子 4 将 缩放 数据 以 匹配 给 定 月 份 的 最 小 值 和 最 大 值 。 

长 期 模型 

然而 有 趣 的 是 ， 这 个 分 析 过 程 并 没有 确定 掩盖 年 度 振荡 的 长 期 趋势 。 为 了 确定 这 一 趋势 ， 有 必要 
将 每 12 个 月 的 样本 序列 简化 为 单一 的 年 度 中 心 值 。 中 位 数 或 均值 都 可 以 用 作 中 心 值 。 

可 以 使 用 以 下 生成 器 表达 式 创建 月 平均 值 的 序列 : 


from statistics import mean, median 
monthly_mean = | 
{'x': x, 'y': mean(co2_ ppm[x:x+12])} 
for x in range(0,1len(co2_ppm),12) 


























































































































































































































] 

该 生成 器 将 构建 一 个 字典 序列 。 每 个 字典 都 包含 回归 函数 必须 使 用 的 x 项 和 y 项 。x 的 值 是 一 个 
简单 的 年 份 和 月 份 的 替代 值 ， 该 值 是 一 个 0 到 696 的 数 。y 值 是 12 个 月 的 值 的 平均 值 。 

回归 计算 如 下 所 示 : 


from ch10_r04 import regression 
alpha, beta = regression (monthly_mean) 
print ('y=', alpha, '+x*', beta) 


计算 结果 是 一 条 明显 的 直线 ,方程 如 下 所 示 : 
$=307.8+0.1276x 
x 值 是 一 个 从 数据 集中 第 一 个 月 ( 即 1958 年 3 月 ) 开始 计算 的 月 份 数 的 偏 移 量 。 例如，1968 年 3 月 的 
x 值 为 120。 年 平均 二 氧化 碳 的 ppm 浓度 为 y = 323.1。 当 年 的 实际 平均 水 平 为 323.27。 这 些 值 非常 
相似 。 
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这 个 相关 模型 的 x 值 为 0.98, 说 明了 该 方程 与 数据 的 拟 合 程 度 。 上 升 的 斜率 就 是 信号 , 它 长 期 主 


10.6.5 ”延伸 阅读 


口 10.4 市 介绍 了 计算 一 系列 值 之 间 相 关 性 的 核心 函数 。 
口 10.5 节 介 绍 了 确定 详细 回归 参数 的 更 多 背景 信息 。 


10.7 确认 数据 是 随机 的 一 一 零 假设 


关于 数据 集 的 零 假 设 和 替代 假设 是 一 个 重要 的 统计 问题 。 假 设 有 两 组 数据 S1 和 sS2， 我 们 可 以 形 
成 两 种 关于 数据 的 假设 。 
口 零 假设 (null ): 任何 差异 都 是 微小 的 随机 效应 ， 没 有 显著 的 差异 。 
口 替代 假设 ( alternate ): 差异 具有 统计 学 意义 。 一 般 来 说 ， 这 种 可 能 性 小 于 5%。 
如 果 存 在 一 些 有 意义 的 变化 ， 那 么 如 何 评 估 数 据 是 否 真 的 是 随机 的 ? 


10.7.1 ”准备 工作 


如 果 我 们 精通 统计 学 ， 就 可 以 利用 统计 理论 来 计算 样本 的 标准 差 ， 并 确定 两 个 分 布 之 间 是 否 存在 
显著 的 差异 。 如 果 不 擅长 统计 学 ， 但 是 精通 编程 ,那么 可 以 在 缺少 理论 知识 的 情况 下 ， 通 过 少量 代码 
得 到 类 似 的 结果 。 

可 以 通过 多 种 方法 来 比较 不 同 的 数据 集 ， 查 看 它们 是 否 明显 不 同 或 者 差异 是 否 随 机 变化 。 在 某 些 
情况 下 , 我 们 能 够 对 这 些 现象 进行 详细 的 模拟 。 如 果 使 用 Python 内 置 的 随机 数 生成 器 , 那么 将 获得 与 
现实 世界 中 真正 随机 事件 基本 相同 的 数据 。 我 们 可 以 比较 模拟 数据 和 测量 数据 , 来 观察 它们 是 否 相 同 。 

模拟 技术 只 在 合理 完成 模拟 时 才 有 效 。 例 如 ， 赌 场 游戏 中 的 离散 事件 很 容易 模拟 。Web 交易 中 某 
些 类 型 的 离散 事件 〈 比如 购物 车 中 的 商品 ) 也 很 容易 模拟 。 但 是 有 些 现 象 很 难 准确 地 模拟 。 

在 不 能 进行 模拟 的 情况 下 ， 可 以 使 用 一 些 重 采样 技术 。 我 们 可 以 使 用 自助 法 (bootstrapping ) 或 者 
交叉 验证 〈 cross-validation ) 混 洗 数据 。 在 这 些 情 况 下 ， 我 们 将 使 用 可 用 于 寻找 随机 效应 的 数据 。 

本 实例 将 比较 10.6 节 中 数据 的 3 个 子 集 。 这 些 数据 来 自 两 个 相 邻 年 份 和 另外 一 个 年 份 , 后 者 与 其 
他 两 个 年 份 相距 很 远 。 每 年 都 有 12 个 样本 ， 我 们 可 以 轻松 计算 这 些 分 组 的 均值 。 


>>> from ch10_r05 import get data 

>>> from pathlib import Path 

>>> source path = Path('code/co2 mm mlo.txt') 

>>> with source path.open() as source file: 

训 all data = list(get data(source file)) 

>>> Y1959 = [r.interpolated for r in all data if r.year == 1959] 
























































































































































































































































































































































>>> Y1960 = [r.interpolated for r in all data if r.year == 1960] 
>>> Y2014 = [r.interpolated for r in all data if r.year == 2014] 




















我 们 为 3 年 的 数据 创建 了 3 个 子 集 。 每 个 子 集 都 是 用 一 个 简单 的 过 滤器 创建 的 。 这 个 过 滤器 创建 
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了 值 列 表 ， 其 中 年 份 与 目标 值 匹配 。 我 们 可 以 计算 这 些 子 集 的 统计 数据 ， 如 下 所 示 : 


>>> 
>>> 


315 . 


>>> 


316 . 


>>> 


398 . 


from statistics import mean 
round (mean(y1959), 2) 


97 
round (mean(y1960), 2) 
91 
round (mean(y2014), 2) 
61 














3 个 均值 并 不 相同 。 我 们 假设 1959 年 和 1960 年 之 间 均 值 的 差异 只 是 没有 任何 意义 的 普通 随机 变 


化 。 然 而 ， 








1959 年 和 2014 年 之 间 均 值 的 差异 在 统计 学 上 非常 显著 。 





排列 或 混 洗 技术 的 工作 原理 如 下 。 
(1) 对 合并 的 样本 数据 进行 排列 。 
(2) 1959 年 和 1960 年 数据 之 间 均 值 的 观测 差 为 316.91-315.97 = 0.94。 我 们 可 以 称 之 为 观察 测试 度 


县. 
量 Tobso 

















口 创建 两 个 子 集 4 和 B。 
口 计算 均值 之 间 的 差 7。 
口 对 大 于 Tobs 和 小 于 Tobs 的 差 7 了 进行 计数 。 








这 两 个 计数 说 明了 我 们 观测 到 的 差 与 所 有 可 能 的 差 之 间 的 比较 结果 。 对 于 大 量 数据 ， 可 能 会 有 大 
量 的 排列 。 在 本 例 中 ， 从 24 个 样本 中 每 次 取 12 个 样本 的 组 合 数 由 以 下 公式 给 出 : 


























ny nl 
大 k(n-A)! 


假设 n=24, k= 12， 计 算得 到 的 值 如 下 : 


>>> from ch03_r07 import fact s 
>>> def binom(n, k): 








return fact_ s(n)//(fact_s(k)*fact_ s(n-k)) 


>>> binom(24, 12) 
2704156 


大 约 有 超过 270 万 个 排列 。 我 们 可 以 使 用 itertools 模块 中 的 函数 生成 这 些 排 列 。combina- 


tions() 


一 种 方案 是 使 用 随机 子 集 。 使 用 270 156 个 随机 样本 可 以 在 大 约 35 秒 内 完成 。 仅 使 用 10% 的 组 


另 











函数 将 生成 各 种 子 集 。 处 理 时 间 超 过 $ 分钟 (320 秒 )。 




















合 就 可 以 提供 足够 准确 的 答案 ,来 确定 两 个 样本 是 否 在 统计 学 上 相似 ， 零 假设 是 否 正确 ,或 者 两 个 样 
本 是 否 不 同 。 
10.7.2 ”实战 演练 

(1) 导入 random 模块 和 statistics 模块 。shuffle() 函数 是 样本 随机 化 的 核心 。 本 实例 还 将 
使 用 mean () 函数 。 


import random 
from statistics import mean 
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可 以 简单 地 计算 高 于 和 低 于 样本 之 间 观 察 差 的 值 。 不 过 ， 这 里 将 创建 一 个 Counter 对 象 来 收集 
从 -0.001 到 +0.001 的 2000 步 中 的 差异 。 这 将 说 明 差 异 是 否 符合 正 态 分 布 。 


from collections import Counter 


(2) 定义 一 个 接受 两 组 独立 样本 的 函数 。 这 些 样本 将 被 合并 ,它们 是 从 集合 中 抽取 的 随机 子 集 。 
def randomized(sl, s2, limit=270415): 
(3) 计算 均值 之 间 的 观测 差 Tos。 


T_obs = mean(s2)-mean(sl) 
PETNE( ST OBe. es Ti 2 | Sr CE {EE CE ormatt 
mean(s2), mean(s1), T_obs) 











) 
(4) 初始 化 一 个 counter 对 象 来 收集 细节 信息 。 


counts = Counter() 


(5) 创建 组 合 的 样本 空间 。 我 们 可 以 连接 两 个 列表 。 


universe = sl+s2 


























(6) 使 用 for 语句 做 大 量 的 重 采样 ,270 415 个 样本 可 能 需要 35 秒 。 通过 扩展 或 收缩 子 集 来 平衡 对 
精确 度 和 计算 速度 的 需求 是 非常 容易 的 。 大 部 分 处 理 将 山 套 在 此 循环 内 。 

for resample in range (limit): 

(7) 混 洗 数据 。 

random.shuffle(universe) 


(8) 选择 与 原始 数据 集 大 小 匹配 的 两 个 子 集 。 














a universe[:len(s2)] 














b universe[len(s2):] 
基于 Python 列表 索引 的 工作 原理 , 我 们 确信 两 个 列表 完全 分 离 了 样本 空间 中 的 值 。 由 于 结束 索引 





























值 1en (s2) 不 包括 在 第 一 个 列表 中 ， 因 此 这 种 切片 清晰 地 分 割 了 所 有 元 素 。 
(9) 计算 均值 之 间 的 差 。 本 例 将 把 这 个 值 扩大 1000 倍 并 转换 为 整数 ， 以 便 累积 频率 分 布 。 


delta = int (1000* (mean(a) - mean(b))) 
counts[delta] += 1 


创建 增 量 值 直方 图 的 男 一 种 方法 是 计算 高 于 和 低 于 Tue 的 值 的 个 数 。 使 用 完整 的 直方 图 可 以 保证 
数据 在 统计 学 上 是 正常 的 。 

(10) 在 for 循环 后 面 , 我 们 可 以 汇总 counts, 显示 有 多 少 值 大 于 观测 差 . 有 和 多少 值 小 于 观测 差 。 
如 果 其 中 任意 一 个 值 小 于 5%， 那 么 这 就 是 一 个 统计 学 上 的 显著 性 差异 。 


T = int(1000*T_obs) 



























































sum(v for k,v in counts.items() if k < T) 
sum(lv for k,v in counts.items() if k >= T) 


LS} dabove. {7} tl$}" format' 


print( "below {:,} { 
(belowt+tabove), 


below, below/ 
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above, above/ (below+above) ) ) 


当 我 们 对 1959 年 和 1960 年 的 数据 执行 randomized() 函数 时 ， 代 码 如 下 所 示 : 


DELint(*L959 Vv. L960") 
randomized(y1959, y1960) 


输出 如 下 所 示 : 


19:59" > L960 
TT.obes a. m2 E3369T 3L9.97 E093 
below 239,457 88.6%, above 30,958 11.4% 


上 述 结果 表明 , 11% 的 数据 高 于 观测 差 , 88% 的 数据 低 于 观测 差 。 结果 在 正常 的 统计 噪声 范围 之 内 。 
当 我 们 对 1959 年 和 2014 年 的 数据 运行 函数 时 ， 输 出 如 下 所 示 : 


1959 Vv. 2014 
和 bg ESE,mMm 2 E30861- 35.97 32564 
below 270,414 100.0%, above 1 0.0% 


在 270415 个 数据 中 , 只 有 1 个 数据 高 于 均值 的 观测 差 Tuw。 从 1959 年 到 2014 年 的 变化 在 统计 学 
上 是 显著 的 ， 概 率 为 3.7x10“。 























10.7.3 工作 原理 


计算 所 有 270 万 个 排列 会 给 出 确切 的 答案 。 使 用 随机 子 集 而 不 是 计算 所 有 可 能 的 排列 ， 运 行 速度 
更 快 。Python 随机 数 生成 器 非常 好 用 ， 它 保证 随机 化 子 集 将 被 公平 分 配 。 

我 们 使 用 了 两 种 技术 来 计算 数据 的 随机 子 集 。 

(1) 使 用 *andaom.shuffle(u) 混 洗 整个 样本 空间 。 

(2) 使 用 类 似 于 a，b = uIx:]，uf[:x] 的 代码 对 样本 空间 进行 分 割 。 

使 用 statistics 模块 完成 两 个 分 割 的 均值 计算 。 我 们 可 以 定义 一 些 更 有 效 的 算法 , 通过 遍历 一 
次 数据 完成 样本 的 混 洗 、 分 割 和 均值 计算 。 这 种 更 高 效 的 算法 将 省 略为 排列 差异 创建 完整 直方 图 的 这 
一 步 。 

上 述 算法 将 差 值 转换 为 -1000 和 +1000 之 间 的 值 ， 方 法 如 下 : 

delta = int (1000* (mean(a) - mean(b))) 

这 样 就 可 以 用 counter 来 计算 频率 分 布 了 。 这 将 表明 大 部 分 差异 实际 上 是 零 。 对 于 呈正 态 分 布 
的 数据 来 说 , 这 是 预料 之 中 的 。 这 种 分 布 将 使 我 们 确信 , 在 随机 数 生 成 和 混 洗 算 法 中 并 没有 隐 性 偏差 。 

可 以 简单 地 对 大 于 和 小 于 7 的 值 进行 计数 , 而 不 是 填充 counter 对 象 。 比较 排列 差异 与 观测 差 
异 Tuu 的 最 简单 形式 如 下 : 


if mean(a) - mean(b) > T_obs: 
above += 1 


上 述 代码 将 对 大 于 观测 差异 的 重 采样 差异 进行 计数 。 可 以 通过 below = 1imit-above 计算 观测 
值 以 下 的 数值 。 结 果 是 一 个 简单 的 百分比 值 。 
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10.7.4 ”补充 知识 


通过 改变 每 个 随机 子 集 均 值 的 计算 方式 ， 可 以 稍微 加 快 处 理 速度 。 
给 定 一 个 数字 池 P， 创 建 两 个 不 相交 的 子 集 4 和 BB， 使 得 : 
AUB=PAANMB=8 
4 和 B 子 集 的 并 集 涵盖 整个 样本 空间 P。 因 为 4 和 8 之 间 的 交集 是 一 个 空 集 ， 所 以 没有 缺失 值 。 
总 和 5, 可 以 只 计算 一 次 : 























Sp ss >P 
我 们 只 需要 计算 一 个 子 集 的 总 和 94: 
Sy = >》 4 
这 意味 着 另 一 个 子 集 的 总 和 可 以 通过 差 集运 算得 到 ， 不 需要 再 计算 第 二 个 子 集 的 总 和 。 
类 似 地 ， 集 合 Ny 和 Ns 的 大 小 都 是 恒定 的 。 这 样 就 可 以 快速 地 计算 出 均值 ju 和 jg。 
Ha4— Ni 
M8= (Sp— Sa )/NVe 
重 采 样 循环 发 生 了 微小 的 变化 ， 如 下 所 示 : 














a_size = len(s1) 
b_size = len(s2) 
su = sum(universe) 


for resample in range (limit): 
random.shuffle(universe) 
a = universe[:len(s1)] 
sum(a) 
s_a/a_size 
(s_u-s_a)/b_size 
delta = int (1000* (m_a-m pb)) 
counts[ldelta] += 1 


通过 只 计算 一 个 和 s_a， 我 们 缩短 了 随机 重 采样 过 程 的 处 理 时 间 。 不 需要 计算 男 一 个 子 集 的 和 ， 
因为 可 以 通过 整个 样本 空间 中 值 的 和 s_u 与 当前 子 集 的 和 s_a 的 差 来 计算 男 一 个 子 集 的 和 m_b。 然 
后 ,不 必 使 用 mean () 函数 ， 直 接 通 过 固定 计数 和 总 和 计算 均值 。 

这 种 优化 使 得 快速 做 出 统计 决策 变 得 非常 容易 。 使 用 重 采样 意味 着 不 需要 依赖 于 复杂 的 统计 理论 
知识 ， 可 以 重 采样 现 有 的 数据 来 表明 给 定 的 样本 符合 零 假设 或 超出 预期 并且 需 要 一 个 替代 假设 。 


号 
Ee 
I 

































































10.7.5 延伸 阅读 
口 该 处 理 过 程 可 以 应 用 于 其 他 统计 决策 过 程 ， 包 括 10.5 节 和 10.6 节 中 的 实例 。 
10.8 查找 异常 值 


我 们 经 常会 在 统计 数据 中 发 现 可 以 描述 为 异常 值 的 数据 点 。 异 常 值 偏 离 其 他 样本 ， 可 能 表示 不 良 
数据 或 新 发 现 。 顾 名 思 义 ,异常 值 是 罕见 的 事件 。 
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异常 值 可 能 是 数据 采集 中 的 简单 错误 。 它 们 可 能 代表 软件 bug 或 者 未 正确 校准 的 测量 设备 。 也 许 
是 因为 服务 器 前 溃 导致 无 法 读 取 日 志 记 录 ， 或 者 因为 用 户 输入 的 数据 不 正确 导致 时 间 截 错误 。 

异常 值 还 可 能 令 人 感 兴趣 的 一 个 原因 是 有 其 他 一 些 难以 检测 的 信号 , 它们 可 能 是 新 颖 的 、 罕 见 的 ， 
或 者 在 设备 的 精确 校准 之 外 。 在 Web 日 志 中 , 这 可 能 会 为 应 用 程序 提供 一 个 新 的 用 例 , 或 者 表明 一 种 
新 的 黑客 攻击 的 开始 。 

如 何 查找 和 标注 潜在 的 异常 值 ? 


10.8.1 准备 工作 


查找 异常 值 的 一 种 简单 方法 是 将 值 归 一 化 ， 使 其 成 为 z 分 数 。z 分 数 将 测量 值 转换 为 测量 值 与 以 
标准 差 为 单位 来 测量 的 均值 之 间 的 比值 。 













































































Zi= (XH)/ 0, 
其 中 心 是 给 定 变量 x 的 均值 ， 必 是 该 变量 的 标准 差 。 可 以 使 用 statistics 模块 来 计算 这 些 值 。 

但 是 , 这 种 方法 可 能 具有 误导 性 ， 因 为 2 分数 受 限于 样本 数量 。 因 此 ,NIST Engineering and Statistics 
Handbook 的 1.3.5.17 节 建议 使 用 以 下 规则 检测 异常 值 。 

M, = 0.6745(x —X)/ MAD 

这 里 使 用 了 绝对 中 位 差 ( median absolute deviation，MAD ) 而 非 标准 差 。MAD 是 每 个 样本 x 与 

样本 总 体 中 位 数 关 之 间 偏 差 的 绝对 值 的 中 位 数 。 
MAD = median(x, —X:x, ex) 

缩放 因子 0.6745 用 于 缩放 这 些 分 数 , 这 样 大 于 3.5 的 M; 值 可 以 被 识别 为 异常 值 。 请 注意 , 该 过 程 
类 似 于 样本 方差 的 计算 。 方差 度量 使 用 了 均值 , 该 度量 使 用 中 位 数 。 各 种 文献 广泛 使 用 0.6745 作为 查 
找 异 常 值 的 缩放 因子 。 

本 实例 将 使 用 10.2 节 中 的 数据 ， 其 中 包括 一 些 相对 平滑 的 数据 集 和 一 些 具 有 极端 异常 值 的 数据 
集 。 数 据 位 于 一 个 JSON 文档 中 ， 它 包含 4 个 系列 的 Ce y) 对 。 
通过 以 下 代码 读 取 这 些 数据 : 
>>> from pathlib import Path 
>>> import json 
>>> from collections import OrderedDict 
>>> source path = Path('code/anscombe.json') 


>>> data = json.loads(source path.read text(), 
object pairs hook=OrderedDict) 


我 们 先 使 用 Path 类 定义 了 数据 文件 的 路 径 ， 然 后 可 以 使 用 Path 对 象 从 数据 文件 中 读 取 文本 。 
json.loadas () 使 用 该 文本 从 JSON 数据 中 构建 了 Python 对 象 。 

我 们 在 函数 中 添加 了 object_pairs_hook 参数 ， 因 此 可 以 使 用 orqeredDict 类 替代 默认 的 
dict 类 来 构建 SON。 这 种 方法 将 保留 源 文档 中 元 素 的 原始 顺序 。 

可 以 通过 如 下 方式 检查 数据 : 


>>> [item['series'] for item in datal 
EL Le | Wi | 
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>>> [len(item['data']) for item in datal] 
[11, 11, 11, 11] 


完整 的 JSON 文档 是 具有 键 ( 比如 工 和 II) 的 子 文档 序列 。 每 个 子 文 档 有 两 个 字段 一 一 series 
和 data。data 值 中 有 一 列 我 们 想 要 表征 的 观测 值 ， 每 个 观测 值 都 包含 一 对 值 。 









































10.8.2 ”实战 演练 


(1) 导入 statistics 模块 。 我 们 需要 进行 大 量 中 位 数 计算 。 另 外 , 可 以 使 用 itertools 的 某 些 
特性 ， 比 如 compress() 和 filterfalse()。 














import statistics 
import itertools 


(2) 定义 absdev () 映射。 该 步 又 将 使 用 给 定 的 中 位 数 或 者 计算 样本 的 实际 中 位 数 , 然后 返回 一 个 
生成 器 ， 提 供 所 有 样本 与 中 位 数 的 绝对 偏差 .如 下 所 示 。 


def absdev (data, median=None): 
if median is None: 
median = statistics.median (data) 
return ( 
abs (x-median) for x in data 














) 
(3) 定义 median_absdev () 函数 。 该 函数 将 查找 绝对 偏差 值 序列 的 中 位 数 , 也 将 计算 用 于 检测 异 
常 值 的 MAD 值 。 该 函数 可 以 计算 中 位 数 ， 也 可 以 给 它 提供 已 经 计算 出 来 的 中 位 数 。 


def median absdev (data, median=None): 
if median is None: 
median = statistics.median (data) 
return statistics.median(absdev (data, median=median)) 


(4) 定义 修正 的 z 分 数 映射 >_mod () 。 该 步骤 将 计算 数据 集 的 中 位 数 , 并 用 它 来 计算 MAD。 然后， 
遍 差 值 用 于 计算 修正 的 z 分 数 。 返 回 的 值 是 修正 的 z 分 数 的 迭代 絮 。 因 为 在 数据 上 进行 了 多 次 遍历 ， 
所 以 输入 不 可 能 是 可 迭代 的 集合 ， 而 一 定 是 一 个 序列 对 象 。 


def z_modl(data): 


















































median = statistics.median (data) 
mad = median_ absdev (data, median) 
return ( 


0.6745*(x - median)/mad for x in data 


) 
在 这 个 实现 中 ， 我 们 使 用 了 一 个 常量 0.6745。 在 一 些 情况 中 ， 我 们 可 能 希望 把 它 设 为 参数 。 可 
以 使 用 def z_mod (data，threshold=0.6745) 来 允许 改变 这 个 值 。 
有 趣 的 是 ，MAD 值 有 可 能 为 零 。 当 大 多 数值 不 偏离 中 位 数 时 ， 可 能 会 发 生 这 种 情况 。 当 超过 一 
半 的 点 具有 相同 的 值 时 ， 绝 对 中 位 差 将 为 零 。 
(5) 基于 修正 的 z 映 射 z_mod () 定义 异常 值 过 滤器 。 任 何 超过 3.5 的 值 都 可 以 被 标记 为 异常 值 。 
然后 可 以 使 用 异常 值 或 不 使 用 异常 值 来 计算 统计 汇总 ,itertools 模块 的 compress () 函数 可 以 根据 
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z_mod() 计算 的 结果 ， 使 用 布尔 选择 器 值 序列 从 原始 数据 序列 中 选择 元 素 。 


def pass_outliers (data): 
return itertools.compress(data, (z >= 3.5 for z in z_mod(data))) 





def reject_outliers (data): 
return itertools.compress(data, (Zz < 3.5 for z in z_modl(data))) 


pass_outliers () 图 数 只 通过 异常 值 。reject_outliers () 函数 通过 非 异 常 值 。 通 常 ， 我 们 将 
显示 两 个 结果 一 一 整个 数据 集 和 排除 异常 值 的 数据 集 。 

这 些 函 数 大 部 分 多 次 引用 了 输入 的 数据 参数 ， 它 是 不 能 使 用 的 可 迭代 对 象 。 必 须 给 这 些 函 数 一 个 
序列 对 象 。 列 表 或 元 组 就 属于 序列 。 

可 以 使 用 pass_outliers() 来 查找 异常 值 。 该 函数 可 以 方便 地 识别 可 疑 的 数据 值 。 可 以 使 用 
reject_outliers() 提 供 移 除 了 异常 值 的 数据 。 































































































10.8.3 ”工作 原理 


转换 操作 的 流水 线 可 以 归纳 为 如 下 几 点 。 

(1) 归 约 总 体 来 计算 总 体 的 中 位 数 。 

(2) 将 每 个 值 映 射 到 总 体 中 位 数 的 绝对 偏差 。 

(3) 归 约 绝对 偏差 来 创建 MAD。 

(4) 使 用 总 体 中 位 数 和 MAD 将 每 个 值 映射 到 修正 的 z 分 数 。 

(5) 根据 修正 的 z 分 数 过 滤 结 

我 们 在 流水 线 中 分 别 定义 了 每 个 转换 函数 。 可 以 使 用 第 8 章 中 的 实例 来 创建 更 小 的 函数 ， 并 使 用 
内 置 的 map () 和 filter () 函数 来 实现 这 种 处 理 。 

不 能 轻易 地 使 用 内 置 的 reduce () 国 数 来 定义 中 位 数 计算 。 为 了 计算 中 位 数 ， 必 须 使 用 递归 的 中 
位 数 查找 算法 。 该 算法 将 数据 分 割 为 越 来 越 小 的 子 集 ， 其 中 一 个 子 集 包 含 中 位 数 。 

给 定 示例 数据 的 处 理 过 程 如 下 所 示 : 
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FOP mer Les: TAMe Ti Ts 

print (series_name) 

series_data = [series['data'] 
for series in data 

if series['series'] == series_name] [0] 

for variable name in 'x', 'y': 
variable = [float (item[variable name]) for item in series_ datal 
print (variable name, variable, end=' ') 
try: 


print( "outliers", list(pass_outliers (variable))) 
except ZeroDivisionError: 
print( "Data Appears Linear") 
print() 


我 们 迭代 了 源 数 据 中 的 每 个 系列 。series_qata 计算 从 源 数据 中 提取 一 个 系列 。 每 个 系列 有 两 
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个 变量 x 和 y。 在 一 组 样本 中 ， 可 以 使 用 pass_outliers () 函数 来 查找 数据 中 的 异常 值 。 


except 子 句 处 理 了 ZeroDivisionError 异常 。 该 异常 是 由 z_mod () 函数 针对 一 组 特定 的 异常 
数据 抛 出 的 。 异 常数 据 的 输出 行 如 下 所 示 : 


x [L800 8.0 870 8507 .80 B80 807 L990, 8.0 :8507 .850] 

















Data Appears Linear 
在 本 例 中 ,至少 有 一 半 的 值 是 相同 的 。 这 个 多 数值 将 被 视 为 中 位 数 。 该 子 集 与 中 位 数 的 绝对 偏 
将 为 零 。 因 此 ，MAD 将 为 零 。 在 本 例 中 ， 异 常 值 的 想法 值得 怀疑 ， 因 为 数据 似乎 也 没有 反映 出 典 
的 统计 噪声 。 
该 数据 不 符合 通用 模型 ， 必 须 将 不 同类 型 的 分 析 应 
不 放弃 异常 值 这 个 想法 。 


10.8.4 ”补充 知识 


我 们 使 用 itertools .compress () 来 通过 或 拒绝 异常 值 ， 也 可 以 以 类 似 的 方式 使 用 filter () 
函数 和 itertools.filterfalse() 困 数 。 我 们 将 介绍 compress () 函数 的 一 些 优化 方法 , 以 及 使 用 
filter() 国 数 蔚 代 compress () 函数 的 方法 。 

我 们 对 pass_outliers 和 reject_outliers 使 用 了 两 个 类 似 的 函数 定义 。 这 种 设计 导致 了 关 
键 程序 逻辑 不 必要 的 重复 ， 违 背 了 DRY 原则 。 这 两 个 函数 如 下 所 示 : 


def pass_outliers (data): 
return itertools.compress (data, 
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于 此 变量 。 由 于 数据 的 特殊 性 质 ， 我 们 不 得 



































(Zz >= 3.5 for z in z_mod(data))) 
def reject_ outliers (data): 
return itertools.compress(data, (z < 3.5 for z in z_mod(data))) 
pass_outliers() 和 reject_outliers() 之 间 的 差异 很 小 , 相当 于 一 个 表达 式 的 逻辑 否定 。 一 
个 函数 中 含有 >=， 另 一 个 函数 中 含有 <。 这 种 代码 差异 并 不 总 是 容易 验证 的 。 如 果 届 辑 更 复杂 ， 那 么 
执行 逻辑 否定 容易 导致 设计 错误 。 
可 以 提取 其 中 一 个 版 本 的 过 滤 带 规则 来 创建 如 下 表达 式 : 


outlier = lambda z: zZ >= 3.5 















































然后 ， 修 改 compress () 国 数 的 两 种 用 法 ， 使 逻辑 否定 更 加 明 胡 
def pass_outliers (data): 


return itertools.compress (data, (outlier(z) for z in z mod(data))) 

















def reject_outliers (data): 


return itertools.compress (data, (not outlier(z) for z in z mod(data))) 


将 过 滤器 规则 暴露 为 单独 的 lambda 对 象 或 函数 定义 ， 有 助 于 减少 代码 重复 。 和 否定 也 更 明显 。 现 
在 可 以 轻松 地 比较 两 个 版 本 ， 以 确保 它们 具有 恰当 的 语义 。 
如 果 要 使 用 filter () 函数 , 那么 必须 对 处 理 流 水 线 进行 彻底 的 改造 。filter () 高 阶 函数 需要 一 
个 判定 函数 ， 为 每 个 原始 值 创建 一 个 true 或 false 结果 。 这 个 处 理 过 程 将 合并 判定 阔 值 与 修正 的 = 
分 数 计算 。 判 定 函 数 必须 计算 : 
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0.6745(x, —) 
MAD 
必须 通过 该 计算 确定 每 个 x 值 的 异常 值 状态 。 该 判定 函数 还 需要 另外 两 个 输入 
和 MAD 值 。 因 此 ， 过 滤 判 定 函数 相当 复杂 ， 如 下 所 示 : 


def outlier(mad, median x, x): 
return 0.6745*(x - median x)/mad >= 3.5 


outlier () 函数 可 以 和 filter () 一 起 使 用 ,以 通过 异常 值 ,也 可 以 和 itertools.filterfalse() 
一 起 使 用 ， 以 拒绝 异常 值 并 创建 一 个 没有 错误 值 的 子 集 。 
为 了 使 用 outlier () 函数， 需要 创建 如 下 函数 : 


def pass_outliers2 (data): 
population median = median (data) 
mad = median absdev (data, population median) 
outlier partial = partial(outlier, mad, population median) 
return filter(outlier partial, data) 


该 函数 计算 了 两 个 整体 归 约 : population_median 和 mad。 给 定 这 两 个 值 ， 可 以 创建 一 个 偏 函 
数 outlier_partial()。 该 函数 为 前 两 个 位 置 参 数 mad 和 population_median 绑 定 了 值 。 最 终 的 
裔 函数 只 需要 处 理 data 值 。 
outlier_partial() 和 filter() 的 处 理 过 程 等 效 于 以 下 生成 器 表达 式 : 


return ( 


=3.5 














总 体 中 位 数 关 
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x for x in data if outlier(mad, population median, x) 


) 


目前 还 不 清楚 该 表达 式 是 否 比 使 用 itertools 模块 的 compress () 函数 具有 明显 的 优势 。 但 是 ， 
对 于 更 熟悉 filter () 的 程序 员 来 说 ， 该 表达 式 可 能 更 清晰 一 些 。 



































10.8.5 延伸 阅读 


口 关于 异常 值 检测 的 更 多 信息 , 请 参阅 http;//www.itl.nist.gov/div898/handbook/eda/section3/eda35h.htm。 
10.9 通过 一 次 遍历 分 析 多 个 变量 


在 许多 情况 下 ， 数 据 具 有 多 个 需要 分 析 的 变量 。 数 据 可 以 被 填充 到 网 格 当中 ， 每 行 都 包含 特定 的 
结果 ， 每 个 结果 行 的 列 中 有 多 个 变量 。 

我 们 可 以 按照 列 优先 的 顺序 模式 ， 独 立地 处 理 〈 一 列 数据 中 的 ) 每 个 变量 。 这 将 导致 多 次 遍历 每 
行 数 据 。 我 们 也 可 以 使 用 行 优先 的 顺序 模式 ， 一 次 性 处 理 每 行 数据 的 所 有 变量 。 

关注 每 个 变量 的 优点 在 于 ， 可 以 编写 一 个 相对 简单 的 处 理 栈 。 本 实例 将 编写 多 个 处 理 栈 ， 每 个 变 
量 一 个 ， 但 每 个 处 理 栈 都 可 以 重用 statistics 模块 的 常用 函数 。 

这 种 处 理 方式 的 缺点 在 于 ， 处 理 非常 大 的 数据 集 的 每 个 变量 时 ， 需 要 从 操作 系统 文件 中 读 取 原 始 
数据 。 这 部 分 处 理 可 能 是 最 耗 时 的 。 实 际 上 ， 读 取 数 据 所 需 的 时 间 往 往 会 极 大 影响 统计 分 析 所 需 的 时 






















































































354 ”第 10 章 统计 编程 和 线性 回归 











间 。 因 为 VO 成 本 非常 高 ， 所 以 出 现 了 像 Hadoop 这 样 的 专用 系统 试图 加 快 对 超大 数据 集 的 访问 速度 。 
如 何 只 遍历 一 次 数据 集 就 获得 大 量 的 描述 性 统计 数据 ? 


10.9.1 准备 工作 


可 以 把 需要 分 析 的 变量 分 为 多 个 类 别 。 例 如 ， 统 计 学 家 通常 将 变量 分 为 以 下 类 别 。 
口 连续 实 值 数 据 : 这 些 变量 通常 测量 为 浮 点 值 ， 有 一 个 很 明确 的 度量 单位 ， 可 以 接受 精度 受 测 
量 准 确 度 限 制 的 值 。 
口 离散 数据 或 分 类 数据 : 这 些 变量 从 有 限 域 中 选择 值 。 在 某 些 情况 下 ， 我 们 可 以 提前 枚 举 域 。 
在 其 他 情况 下 ， 必 须发 现 域 的 值 。 
口 有 序数 据 : 这 些 变 量 提供 了 顺序 。 一 般 来 说 ， 序 数值 是 一 个 数 ， 但 是 统计 汇总 不 适用 于 序数 
值 ， 因 为 它 不 是 真正 的 测量 值 ， 没 有 单位 。 
口 计数 数据 : 这 些 变量 是 独立 离散 结果 的 汇总 。 可 以 通过 计算 另 一 个 离散 计数 的 实 值 均值 来 将 
其 视 为 连续 的 。 
变量 可 以 彼此 独立 ， 也 可 以 依赖 于 其 他 变量 。 在 研究 的 初始 阶段 ， 依 赖 可 能 是 未 知 的 。 在 之 后 的 
阶段 ， 编 写 软件 的 一 个 目的 就 是 发 现 依赖 关系 。 随 后 ， 软 件 可 以 用 来 对 依赖 关系 建 模 。 
由 于 数据 的 多 样 性 ,我 们 需要 将 每 个 变量 视 为 一 个 独特 的 元 素 。 不 能 将 它们 全 部 视 为 简单 的 浮 点 
值 。 正 确认 识 其 中 的 差异 将 产生 一 个 类 定义 的 层次 结构 。 每 个 子 类 将 包含 一 个 变量 的 独特 功能 。 
我 们 有 两 种 总 体 设计 模式 。 
口 及 早 : 尽 可 能 早 地 计算 各 种 汇总 。 在 某 些 情况 下 ， 不 必 为 此 累积 非常 多 的 数据 。 
口 惰性 : 尽 可 能 晚 地 计算 汇总 。 这 意味 着 我 们 将 累积 数据 ,并 使 用 特性 ( property ) 来 计算 汇总 。 
对 于 非常 大 的 数据 集 , 需要 一 个 混合 解决 方案 。 我 们 将 及 早 地 计算 一 些 汇总 ,并且 使 用 特性 来 计 
算 这 些 汇总 的 最 终结 果 。 
本 实例 将 使 用 10.2 节 中 的 某 些 数据 , 其 在 许多 类 似 的 数据 系列 中 只 包含 两 个 变量 。 变量 名 分 别 为 
x 和 y， 它 们 都 是 实 值 变 量 。y 变量 依赖 于 x 变量 ， 因 此 适用 相关 和 回归 模型 。 
通过 以 下 代码 读 取 这 些 数据 : 





























































































































































































































>>> from pathlib import Path 

>>> import json 

>>> from collections import OrderedDict 

>>> source path = Path('code/anscombe.json') 

>>> data = json.loads(source path.read text(), 

object pairs hook=OrderedDict) 

我 们 先 使 用 Path 类 定义 了 数据 文件 的 路 径 ， 然 后 可 以 使 用 Path 对 象 从 数据 文件 中 读 取 文本 。 
json.loads () 使 用 该 文本 从 JSON 数据 中 构建 了 Python 对 象 。 

由 于 我 们 在 函数 中 添加 了 object_pairs_hook 参数 ， 因 此 可 以 使 用 ordqeregdDict 类 替代 默认 
的 aict 类 来 构建 JSON。 这 种 方法 将 保留 源 文档 中 元 素 的 原始 顺序 。 

通过 如 下 方式 检查 数据 : 


>>> [item['series'] for item in datal 
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>>> [len(item['data']) for item in datal] 
[11, 11, 11, 11] 


完整 的 JSON 文档 是 具有 键 ( 比如 工 ) 的 子 文档 序列 。 每 个 子 文档 有 两 个 字段 一 一 series 和 data。 
data 数组 中 有 一 列 我 们 想 要 表征 的 观测 值 ， 每 个 观测 值 都 包含 一 对 值 。 









































10.9.2 ”实战 演练 


(1) 定义 一 个 类 来 分 析 变量 。 该 类 应 当 完 成 所 有 的 转换 和 清洗 。 我 们 将 使 用 混合 处 理 方法 : 当 获 
取 每 个 数据 元 素 时 ， 更 新 总 和 和 计数 ; 直到 请 求 这 些 属 性 时 ， 才 计算 最 终 的 均值 或 标准 差 。 


import math 
class SimpleStats: 
def _ init__(self, name): 
self.name = name 
self.count = 0 
self.sum = 0 
self.sum 2 = 0 
def cleanse(self, value): 
return float (value) 
def add(self, value): 
value = self.cleanse(value) 
self.count += 1 
self.sum += value 
self.sum 2 += value*value 
@property 
def mean (self): 
return self.sum / self.count 
@property 
def stdev (self): 
return math.sart( 
(self.count*self.sum 2-self.sum**2)/(self.count*(self.count-1)) 
) 


这 个 例子 定义 了 count 、sum 以 及 平方 和 的 汇总 。 我们 可 以 扩展 该 类 来 增加 更 多 的 计算 。 对 于 
位 数 或 众 数 ， 我 们 必须 累积 每 个 值 ， 并 将 设计 模式 完全 改 为 惰性 模式 。 

(2) 定义 处 理 输入 列 的 实例 。 我 们 将 创建 Simplestats 类 的 两 个 实例 。 本 实例 选择 了 两 个 非常 相 
似 的 变量 ， 因 此 一 个 类 涵盖 了 这 两 种 情况 。 


x_stats 
y_stats 


(3) 定义 从 实际 列 标 题 到 统计 计算 对 象 的 映射 。 在 某 些 情况 下 ， 可 能 不 会 通过 名 称 来 标识 列 : 也 
可 能 会 使 用 列 索 引 。 在 本 例 中 ， 对 象 序列 将 匹配 每 行 中 的 列 序列 。 


column_stats = { 
TC REStALS, 
J tt 




































































SimpleStats('x') 
SimpleStats('y') 











} 
(4) 定义 处 理 所 有 行 的 函数 ， 对 每 行 中 的 每 列 使 用 统计 计算 对 象 。 
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def analyze (series_data): 
x_stats = SimpleStats('x') 
y_stats = SimpleStats('y') 
column_stats = { 
XX Statss, 
YStats 
;} 
for item in series_ data: 
for column name in column_ stats: 
column_stats[column name] .add (item[column_ name]) 
return column stats 


外 层 的 for 语句 处 理 每 行 数据 。 内 层 的 for 语句 处 理 每 行 数据 的 每 列 。 处 理 过 程 显然 遵循 了 行 
优先 的 顺序 。 
(5) 显示 各 对 象 的 结果 或 汇总 。 


column_stats = analyze (series_data) 
for column key in column_ stats : 
print(' ', column key， 
column_stats[column_ key] .mean, 
column_stats[column _ key] .stdev) 


可 以 将 分 析 函 数 应 用 于 一 系列 数据 值 ， 最 终 将 返回 包含 统计 汇总 的 字典 。 
10.9.3 工作 原理 


我 们 创建 了 一 个 类 ， 它 可 以 对 特定 类 型 的 列 进 行 清洗 、 过 滤 和 统计 处 理 。 当 面 对 各 种 列 时 ， 需 要 
多 个 类 定义 。 这 种 思想 能 够 轻松 创建 相关 类 的 层次 结构 。 

我 们 为 每 个 需要 分 析 的 特定 列 创建 了 类 的 一 个 实例 。 在 这 个 例子 
单 的 浮 点 值 而 设计 的 。 其 他 设计 将 适用 于 离散 数据 或 有 序数 据 。 

该 类 的 外 在 功能 是 一 个 aaa () 方 法 。 每 个 单独 的 数据 值 都 被 提供 给 了 这 个 方法 。mean 和 staev 
特性 计算 了 统计 汇总 信息 。 

该 类 还 定义 了 一 个 处 理 数据 转换 需求 的 cleanse () 方 法。 这 个 方法 还 可 以 用 于 处 理 无 效 数 据 ， 
它 可 能 会 过 滤 值 而 不 是 抛 出 异常 。 必 须 履 盖 此 方法 才能 处 理 更 复杂 的 数据 转换 。 

我 们 创建 了 一 个 统计 信息 处 理 对 象 的 集合 。 在 本 例 中 ， 集 合 中 的 两 个 元 素 都 是 Simplestats 的 
实例 。 在 大 多 数 情况 下 ， 集 合 中 的 元 素 可 能 涉及 多 个 类 ， 并 且 统计 处 理 对 象 集合 会 相当 复杂 。 

SimpleStats 对 象 集合 被 应 用 到 每 一 行 数据 。 for 语句 使 用 映射 的 键 ， 它们 也 是 列 名 称 ， 用 于 
将 每 列 的 数据 和 恰当 统计 处 理 对 象 关联 起 来 。 

在 某 些 情况 下 , 统计 汇总 必须 进行 惰性 计算 。 例如 , 为 了 发 现 异常 值 , 我 们 可 能 需要 所 有 的 数据 。 
查找 异常 值 的 一 种 常见 方法 需要 计算 中 位 数 ， 通过 中 位 数 计算 绝对 偏差 ,然后 计算 这 些 绝对 偏差 的 中 
位 数 。 请 参阅 10.8 节 。 为 了 计算 众 数 ， 需 要 将 所 有 数据 值 累积 到 一 个 counter 对 象 中 。 



































，SimpleStats 是 为 一 列 简 








































































































10.9.4 ”补充 知识 
在 本 实例 的 设计 中 ， 上 默认 假设 所 有 的 列 是 完全 独立 的 。 在 某 些 情况 下 , 需要 组 合 列 来 派生 其 他 数 
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据 项 。 这 将 导致 一 个 更 复杂 的 类 定义 ， 可 能 包括 对 其 他 simplestats 实例 的 引用 。 为 了 确保 按 依 赖 
顺序 处 理 列 ， 该 处 理 可 能 变 得 相当 复杂 。 

正如 8.3 节 中 介绍 的 ， 可 能 有 一 个 多 级 处 理 涉 及 改进 和 计算 得 出 的 值 。 这 进一步 限制 了 列 处 理 规 
则 中 的 顺序 。 处 理 这 种 情况 的 一 种 方法 是 ， 为 每 个 分 析 器 提供 其 他 相关 分 析 器 的 引用 。 这 种 方法 可 能 
会 产生 一 组 复杂 的 类 定义 。 

首先 ， 定 义 两 个 类 来 分 别处 理 日 期 列 和 时 间 列 。 然 后 ， 组 合 这 些 类 来 创建 基于 这 两 个 列 的 时 间 
惟 列 。 

单独 处 理 日 期 列 的 类 如 下 所 示 : 


class DateStats : 
def cleanse(self, value): 
return datetime.datetime.strptime(date, '%Y-%m-%d') .date!() 
def add(self, value): 
self.current = self.cleanse (value) 


Datestats 类 只 实现 了 add () 方 法 。 该 方法 清洗 数据 并 保留 当前 值 。 处 理 时 间 列 的 类 如 下 所 示 : 


class TimeStats : 
def cleanse(self, value): 
return datetime.datetime.strptime(date, '%H:%M:%$S') .time() 
def add(self, value): 
self.current = self.cleanse (value) 


TimeStats 类 类 似 于 Datestats 类 , 它 只 实现 了 agd() 方 法 。 这 两 个 类 都 专注 于 清洗 源 数据 并 
保留 当前 值 。 
下 面 的 类 依赖 于 前 两 个 类 的 结果 。 该 类 将 用 Datestats 对 象 和 TimeStats 对 象 的 current 
性 来 获得 当前 可 用 的 值 。 
class DateTimeStats: 
def _ init__(self, date column, time_column): 
self.date_column = date_column 
self.time _ column = time_ column 
def add(self, value=None): 
date = self.date_column.current 


time = self.time_ column.current 
self.current = datetime.datetime.combine (date, time) 


DateTimeStats 类 组 合 了 DateStats 对 象 科 TimeStats 对 象 的 结果 。 该 类 需要 Datestats 
类 的 一 个 实例 和 Timestats 类 的 一 个 实例 。 通 过 这 两 个 对 象 ， 当 前 经 过 清洗 的 值 可 用 作 current 
属性 。 
请 注意 , DateTimeStats 的 add() 方 法 不 接受 value 参数 , 而 是 从 另外 两 个 清洗 过 的 对 象 中 收 
集 一 个 值 。 这 要 求 在 处 理 这 个 派生 列 之 前 处 理 其 他 两 列 。 

为 了 确保 值 可 用 ， 每 行 都 需要 一 些 附 加 处 理 。 把 基本 的 日 期 和 时 间 处 理 映射 到 特定 的 列 。 


date_stats = DateStats () 
time_stats = TimeStats () 
column_stats = { 

'date': qate_stats， 












































再 
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'time': time_ stats 


} 
column_stats 映射 可 用 于 将 两 个 基础 数据 清洗 操作 应 用 于 每 行 数据 。 但 是 ,我 们 还 得 到 了 在 基 
础 数据 完成 之 后 必须 计算 的 派生 数据 。 如 下 所 示 : 


datetime_stats = DateTimeStats (date_stats, time_stats) 
derived_ stats = { 
'datetime': datetime_stats 


























} 

我 们 构建 了 一 个 DateTimesStats 实例 ， 它 依赖 于 另外 两 个 统计 过 程 对 象 : date_stats 和 
time_statso 该 对 象 的 aaa () 方 法 将 从 其 他 两 个 对 象 中 分 别 获 取 current 值 。 如 果 还 有 其 他 派生 列 ， 
可 以 将 它们 收集 到 这 个 映射 中 。 

derived_stats 映射 可 用 于 应 用 统计 处 理 操作 来 创建 和 分 析 派 生 数 据 。 整 体 处 理 循环 可 分 为 两 
个 阶段 


for item in series_data: 
for column name in column_ stats: 
column_stats[column name] .add (item[column_ name]) 
for column name in derivedqd_ stats: 
derived_stats[column name] .add() 


我 们 计算 了 源 数 据 中 存在 的 列 的 统计 信息 ， 然 后 计算 了 派生 列 的 统计 信息 。 这 个 处 理 过 程 仅 使 用 
两 个 映射 就 完成 了 配置 。 我 们 可 以 修改 用 于 更 新 column_stats 映射 和 derived_stats 映射 的 类 。 

使 用 map () 

ee for 语句 将 每 个 统计 对 象 应 用 到 相应 的 列 数据 , 也 可 以 使 用 生成 器 表达 式 , 其 至 
可 以 尝试 使 用 map () 困 数 。 关 于 map ( ) 函数 的 更 多 背景 信息 ， 请 参阅 8.7 节 。 

男 一 人 如 下 所 示 : 


data_gathering = { 
'x': lambda value: x_stats.add(value), 
'y': lambda value: y_stats.addl(value) 
















































































} 

我 们 提供 了 一 个 将 对 象 的 aga () 方 法 应 用 于 给 定数 据 值 的 函数 ， 而 不 是 对 象 。 
根据 这 个 集合 ， 可 以 使 用 生成 器 表达 式 : 

[data_gathering[k] (row[k]) for k in data gathering)] 


data_gathering[k] 函数 将 应 用 于 行 中 每 个 可 用 的 k 值 。 














10.9.5 ”延伸 阅读 
口 关于 其 他 适合 本 实例 的 设计 选择 ， 请 参阅 6.3 节 和 6.8 节 。 
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本 章 将 介绍 以 下 实例 。 


口 
口 
口 





11.1 


测试 是 创建 可 运行 软件 的 核心 。 


口 使 用 文档 字符 串 进行 测试 
口 测试 抛 出 异常 的 函数 

口 处 理 常 见 的 doctest 问题 
口 创建 单独 的 测试 模块 和 包 


组 合 unittest 测试 和 doctest 测试 
涉及 日 期 或 时 间 的 测试 
涉及 随机 性 的 测试 














口 模拟 外 部 资源 


引言 











以 下 是 对 测试 重要 性 的 经 典 陈述 


任何 没有 经 过 自动 测试 的 程序 功能 都 等 于 不 存在 的 功能 。 
这 句 话 摘自 《解析 极限 编程 : 拥抱 变化 》 作者 是 Kent Beck。 


可 以 将 测试 分 为 以 下 几 种 类 型 。 


口 




















单元 测试 (unit testing ): 适用 于 独立 的 软件 单元 一 一 函数 、 类 或 模块 。 对 单元 进行 隔离 测试 











以 确认 其 正常 工作 。 





























口 集成 测试 〈integration testing ): 组 合 各 个 单元 ， 确 保 它 们 正确 集成 。 























口 系统 测试 ( system testing ): 测试 整个 应 用 程序 或 相互 关联 的 应 用 程序 系统 ， 确 保 软件 组 件 的 

















聚集 套件 正常 工作 。 通 常 适用 于 软件 的 总 体验 收 。 




















口 性 能 测试 ( performance testing ): 确保 单元 符合 性 能 目标 。 在 某 些 情况 下 ， 人 性 能 测试 包括 对 内 








能 测试 的 目标 是 确保 软件 合理 使 用 系统 资源 。 





存 、 线 程 、 文 件 描述 符 等 资源 的 研究 。 反 


Python 有 两 种 内 置 测试 框架 。 一 种 是 doctest 工具 , 可 以 检查 文档 字符 串 中 包含 >>> 提 示 符 的 示 
例 。 虽然 该 框架 广泛 用 于 单元 测试 ,但 是 也 可 以 
另 一 种 测试 框架 使 用 由 unittest 模块 构建 的 类 。unittest 模块 定义 了 Testcase 类 。 该 框架 












































] 于 简单 的 集成 测试 。 





同样 主要 用 于 单元 测试 ， 但 也 可 以 应 用 于 集成 测试 和 性 能 测试 。 
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当然 , 我 们 也 想 把 这 些 工具 结合 起 来 。 两 个 模块 都 具有 人 允许 共存 的 功能 ,我们 常常 利用 unittest 
包 的 测试 加 载 协议 来 合并 所 有 测试 。 
此 外 ， 我 们 会 使 用 nose2 或 py .test 等 工具 进一步 自动 化 测试 用 例 搜 索 并 添加 其 他 功能 ， 例 如 
测试 用 例 履 盖 。 这 些 项 目 通常 对 特别 复杂 的 应 用 程序 很 有 帮助 。 
有 时 候 ， 使 用 GIVEN-WHEN-THEN 风格 的 测试 用 例 命名 方法 来 总 结 测 试 是 非常 有 效 的 。 
口 给 定 (GIVEN ) 一 些 初始 状态 或 上 下 文 
口 当 (WHEN ) 请 求 某 个 行为 时 
口 那么 CTHEN ) 被 测 组 件 有 一 些 预 期 的 结果 或 状态 变化 


11.2 ”使 用 文档 字符 串 进行 测试 


在 优秀 的 Python 代码 中 ， 每 个 模块 、 类 、 函 数 和 方法 都 包含 文档 字符 串 ( docstring )。 许多 工具 
可 以 从 文档 字符 串 中 创建 有 用 的 、 翔 实 的 文档 。 

示例 是 文档 字符 串 的 一 个 重要 元 素 ， 可 以 转换 为 单元 测试 用 例 。 示 例 通常 符合 GIVEN-WHEN- 
THEN 测试 模型 ， 因 为 它 展示 了 一 个 单元 、 一 个 请 求 和 一 个 响应 。 

如 何 将 示例 转化 为 正确 的 测试 用 例 ? 


11.2.1 准备 工作 


本 实例 将 讨论 两 个 简单 的 定义 ， 一 个 是 函数 定义 ， 一 个 是 类 定义 。 它 们 都 将 添加 包含 可 用 作 正式 
测试 示例 的 文档 字符 串 。 

下 面 是 一 个 计算 两 个 数 的 二 项 式 系数 的 简单 函数 ， 它 显示 了 a 个 事物 在 大 小 为 的 分 组 中 的 组 合 
数 。 例 如 ， 从 一 副 52 张 的 纸牌 中 分 发 5 张 牌 的 方法 有 多 少 种 ?计算 公式 如 下 : 


ny nl 
大 kn-A)! 


可 以 把 上 述 公式 定义 为 一 个 Python 函数 ， 如 下 所 示 : 


from math import factorial 
def binom(n: int, k: int) -> int: 
return factorial(n) // (factorial(k) * factorial (n-k)) 


该 函数 执行 一 个 简单 的 计算 并 返回 一 个 值 。 由 于 没有 内 部 状态 ， 因 此 比较 容易 测试 。 我 们 用 该 函 
数 作为 一 个 展示 单元 测试 工具 的 示例 。 

接 下 来 还 会 介绍 一 个 简单 的 类 ， 它 包含 一 个 均值 和 中 位 数 的 惰性 计算 ( lazy calculation )。 该 类 还 
使 用 了 一 个 内 置 的 counter 对 象 ， 可 以 通过 该 对 象 确 定 众 数 (mode ) "。 


from statistics import median 
from collections import Counter 
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人 本 节 未 定义 mode 函数 ， 源 代码 中 有 mode 函数 。 一 一 译 者 注 
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class Summary : 


def init__ (self) : 
self.counts = Counter() 


def __str__(self): 
return "mean = {:.2f}\nmedian = {:d}".format( 
self.mean, self.median) 


def add(self, value): 
self.counts[lvalue] += 1 








@property 

def mean (self): 
s0 = sum(f for v,f in self.counts.items()) 
sl = sum(v*f for Vv,f in self.counts.items()) 


return sl/s0 


@property 
def median (self): 
return median(self.counts.elements()) 
add () 方 法 会 改变 Counter 对 象 的 状态 。 由 于 这 种 状态 变化 , 我 们 需要 提供 更 复杂 的 示例 来 展示 
Summaty 类 的 实例 的 行为 方式 。 

















11.2.2 ”实战 演练 


本 实例 有 两 个 变 体 。 第 一 个 用 于 基本 上 无 状态 的 操作 ， 比 如 pinom() 函数 的 计算 。 第 二 个 用 于 有 
状态 的 操作 ， 比 如 summary 类 。 

(1) 把 示例 添加 到 文档 字符 串 中 。 

(2) 以 程序 ( 脚本 ) 的 方式 运行 goctest 模块 。 运 行 方式 有 两 种 。 

口 在 命令 提示 符 下 。 


$ Python3.5 -m doctest code/ch11_r01.py 


如 果 所 有 示例 都 通过 测试 ， 则 没有 输出 。 使 用 -v 选项 可 以 生成 总 结 测试 的 详细 输出 。 














口 添加 name ==' main _'。 这 种 方式 可 以 导入 doctest 模块 并 执行 cestmod () 国 数 。 
生生 name, == '__main 





import doctest 
doctest .testmod() 


如 果 所 有 示例 都 通过 测试 , 则 没有 输出 。 如果 想 查看 输出 , 请 使 用 testmod () 函数 的 verbose=1 
参数 来 创建 更 详细 的 输出 。 

1. 编写 无 状态 函数 的 示例 

(1) 在 文档 字符 串 的 开头 添加 摘要 ( summary )。 


''Computes the binomial coefficient. 
This shows how many combinations of 
*n* things taken in groups of size *k*. 
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(2) 添加 参数 的 定义 。 


:param n: size of the universe 
:param k: size of each subset 


(3) 添加 返回 值 的 定义 。 
:returns: the number of combinations 
(4) 模拟 在 Python 的 >>> 提 示 符 下 使 用 该 函数 的 一 个 示例 。 


>>> binom(52, 5) 
2598960 


(5) 使 用 引号 闭合 文档 字符 串 
2. 编写 有 状态 对 象 的 示例 
(1) 编写 一 个 包含 摘要 的 类 级 别 文档 字符 串 。 


'''Computes summary Statistics . 























0 

















我 们 留 下 了 填充 示例 的 空间 。 
(2) 编写 一 个 包含 摘要 的 方法 级 别 文档 字符 串 。ada () 方 法 如 下 所 示 。 


def add(self, value): 
'''Adds a value to be summarized. 














:param value: Adds a new value to the collection. 


Self.counts [value] += 1 


(3) mean () 方 法 如 下 所 示 。 


@property 

def mean (self): 
'''Computes the mean of the collection. 
:return: mean value as a float 


s0 sum(f for v,f in self.counts.items()) 
sl = sum(v*f for Vv,f in self.counts.items()) 
return sl/s0 


medqian () 方 法 也 需要 编写 类 似 的 文档 字符 串 。 
(4) 扩展 类 级 别 文档 字符 串 的 具体 示例 。 本 例 将 编写 两 个 示例 。 第 一 个 示例 显示 
返回 值 ， 但 是 改变 了 对 象 的 状态 。mean ( ) 方法 暴露 了 这 种 状态 。 


>>> s = Summary() 
>>> S.add(8) 

>>> S.add(9) 

>>> S.add(9) 

>>> round(s.mean, 2) 
8.67 

>>> s.median 

9 


1 
































adad () 方 法 没有 
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我 们 对 均值 的 结果 进行 了 舍 和 信 ， 以 避免 显示 很 长 的 浮 点 值 ， 因 为 浮 点 值 在 不 同 的 平台 上 可 能 没有 




















完全 相同 的 文本 表示 形式 。 当 运行 doctest 时 ,通常 没有 任何 响应 ， 因 为 测试 通过 了 。 














第 二 个 示例 显示 了 __str__() 方 法 的 一 个 多 行 结果 。 








>>> print (str(s)) 
mean = 8.67 
median = 9 



































当 某 些 代码 不 工作 时 ， 会 出 现 什么 状况 呢 ? 假设 我 们 把 预期 的 输出 改 为 一 个 错误 答案 (将 
s .median 的 预期 输出 改 为 10 )。 当 运行 soctest 时 ,输出 如 下 所 示 : 


闪光 炎炎 火炎 炎炎 火炎 淡淡 炎 类 炎炎 炎炎 火炎 炎炎 炎炎 火炎 炎炎 火炎 火炎 炎炎 火炎 类 火炎 炎炎 火炎 火炎 炎炎 火炎 炎炎 火炎 火炎 炎炎 火炎 类 火炎 大火 火炎 火炎 类 


File " main ", line ?, in _ main .Summary 
Failed example: s.medianExpected: 

10 
Got: 

9 


实 炎 炎炎 类 炎炎 火炎 火光 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 类 类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 类 类 炎 二 


items had failures: 


1 of 6 in _ main .Summary 


***Test Failed*** 1 failures. 


Test Results(failed=1, attempted=9) 


输出 信息 显示 了 错误 所 在 的 位 置 以 及 测试 示例 的 预期 值 和 实际 答案 。 








11.2.3 ”工作 原理 








doctest 模块 包括 一 个 主 程序 以 及 车 干 函数 , 它 将 扫描 Python 文件 中 的 >>> 示 例 。 可 以 利用 该 模 














块 的 扫描 函数 testmoa () 来 扫描 当前 模块 。 其实 ， 可 以 使 用 该 函数 扫描 任何 已 经 导入 的 模块 。 
































况 的 实例 。 











扫描 操作 将 查找 具有 如 下 特征 模式 的 文本 块 : 在 >>> 行 后 面 紧 跟着 显示 命令 的 响应 行 。 

doctest 解析 器 从 提示 行 和 响应 文本 块 中 创建 一 个 测试 用 例 对 象 。 常 见 的 情况 有 3 种 。 

口 没有 预期 的 响应 文本 : 在 定义 Summary 类 中 aaa () 方 法 的 测试 时 ， 我 们 看 到 了 这 种 模式 。 

口 单行 响应 文本 : binom () 函数 和 mean () 方 法 就 是 这 种 情况 的 实例 。 

口 多 行 响应 文本 : 响应 由 下 一 个 >>> 提 示 或 空 行 做 界限 。summary 类 的 str() 示 例 就 是 这 种 情 


























doctest 模块 将 执行 每 一 行 带 >>> 提 示 的 代码 。doctest 模块 将 比较 实际 结果 与 预期 结果 。 这 种 








比较 是 一 种 非常 简单 的 文本 匹配 。 除 非 使 用 特殊 注释 ， 否 则 输出 结果 必须 精确 匹配 预期 结果 。 























该 测试 协议 的 简单 性 施加 了 一 些 软件 设计 要 求 。 函 数 和 类 必须 设计 为 从 >>> 提 示 中 运行 。 因 为 创 
建 非常 复杂 的 对 象 作 为 文档 字符 串 示 例 的 一 部 分 可 能 有 些 奇怪 ， 所 以 必须 保持 足够 简单 的 设计 ， 以 便 
可 以 交互 地 进行 演示 。 保 持 软件 简单 到 足以 在 >>> 提 示 中 显示 通常 是 很 有 益 的 。 












































结果 比较 的 简单 性 可 能 增加 了 正在 显示 的 输出 的 复杂 性 。 例 如 ,我 们 舍 去 了 均值 的 两 位 小 数 ， 
为 浮 点 值 在 不 同 平台 上 的 显示 可 能 会 略 有 不 同 。 





同样 在 MacOSX 中 ， 在 Python 2.6.9 

















1 显示 为 8.6666666666666661 的 值 在 Python 3.5.1 中 显示 








为 8.666666666666666。 这 些 值 有 16 位 有 效 数 字 ， 每 个 值 大 约 48 位 数据 ， 这 是 浮 点 值 的 实际 限制 。 
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11.4 节 将 详细 讨论 精确 比较 问题 。 


11.2.4 ”补充 知识 











边界 情况 是 测试 考虑 的 重要 因素 之 一 。 边 界 情况 (edge case ) 通常 集中 在 计算 设计 的 极限 上 。 例 
如 ， 二 项 式 函 数 有 两 个 边界 情况 。 





可 以 简单 地 将 这 些 边 界 情况 添加 到 示例 中 ， 以 确保 我 们 的 实现 是 正确 的 ， 新 函数 如 下 所 示 : 


def binom(n: int, k: int) -> int: 
''Computes the binomial coefficient. 
This shows how many combinations of 
*n* things taken in groups of size *k*. 




















:param n: size of the universe 
:param k: size of each subset 


:returns: the number of combinations 


>>> binom(52, 5) 


2598960 

>>> binom(52, 0) 
1 

>>> binom(52, 52) 


站 
return factorial(n) // (factorial(K) * factorial (n-k)) 
在 某 些 情况 下 ,我 们 可 能 需要 测试 超出 有 效 值 范围 的 值 。 把 这 些 情况 放 入 文档 字符 串 中 并 不 是 非 
常理 想 的 ， 因 为 这 将 混淆 对 应 该 发 生 的 情况 的 解释 和 其 他 不 应 该 发 生 的 情况 的 解释 。 
可 以 在 名 为 、test_” 的 全 局 变量 中 添加 额外 的 文档 字符 串 测 试用 例 。 这 个 变量 必须 是 一 个 映射 ， 
键 为 测试 用 例 的 名 称 ， 值 为 soctest 示例 。 这 些 示例 必须 是 用 三 重 引号 括 起 来 的 字符 串 
因为 这 些 示 例 不 在 文档 字符 串 中 ， 所 以 在 使 
工具 从 源 代码 创建 文档 时 ， 这 些 示 例 也 不 会 显示 。 
_ test_ 全 局 变量 示例 如 下 : 


二 所 全 B 忆 二 、- 二 志和 全 
'GIVEN_binom WHEN 0_0_THEN_ 1' : 



























































[e) 


内 置 的 help () 函数 时 不 会 显示 它们 。 当 使 用 其 他 













































































>>> binom(0, 0) 
1 
} 


我 们 编写 映射 时 没有 为 键 设置 缩 进 。 映 射 的 值 缩 进 了 4 个 空格 , 这样 有 利于 区 分 键 和 值 ， 便 于 快 
速 找到 值 。 
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doctest 程序 可 以 发 现 这 些 测试 用 例 , 并 把 它们 添加 到 整套 测试 中 。 这 些 测试 用 例 对 于 测试 非常 
重要 ， 但 是 作为 文档 并 没有 太 大 帮助 。 





11.2.5 “延伸 阅读 


口 11.3 节 和 11.4 节 将 讨论 另外 两 种 doctest 技术 。 这 些 技术 很 重要 , 因为 异常 通常 包含 回溯 信息 ， 
回溯 信息 则 包含 每 次 运行 程序 时 都 可 能 发 生变 化 的 对 象 ID。 


11.3 ”测试 抛 出 异常 的 函数 


在 优秀 的 Python 代码 中 ,每 个 模块 、 类 、 函 数 和 方法 都 包含 文档 字符 串 。 许 多 工具 可 以 从 文档 字 

串 中 创建 有 用 的 、 翔 实 的 文档 。 
示例 是 文档 字符 串 的 一 个 重要 元 素 , 可 以 转换 为 单元 测试 用 例 。 doctest 对 预期 输出 与 实际 输出 
进行 简单 的 文本 匹配 。 

当 一 个 示例 抛 出 异常 时 ，Python 的 回溯 消息 并 不 总 是 相同 的 。 这 些 回 溯 消 息 之 间 的 差异 可 能 包括 
会 发 生变 化 的 对 象 ID 值 或 者 可 能 会 根据 执行 测试 的 上 下 文 而 轻微 变化 的 模块 行 号 。 当 涉及 异常 时 ， 
doctest 的 逐 字 匹配 规则 是 不 恰当 的 。 

如 何 将 异常 处 理 和 生成 的 回溯 消息 转化 为 正确 的 测试 用 例 ? 


11.3.1 准备 工作 


本 实例 将 讨论 两 个 简单 的 定义 ， 一 个 是 函数 定义 ， 一 个 是 类 定义 。 它 们 都 将 添加 包含 可 用 作 正 式 
测试 示例 的 文档 字符 串 。 

下 面 是 一 个 计算 两 个 数 的 二 项 式 系 数 的 简单 函数 ， 它 显示 了 n 个 事物 在 大 小 为 的 分 组 中 的 组 合 
数 。 例 如 ， 从 一 副 52 张 的 纸牌 中 分 发 5 张 牌 的 方法 有 多 少 种 ? 计算 公式 如 下 : 


ny nl 
Kk) kln-A)! 


可 以 把 上 述 公 式 定 义 为 一 个 Python 函数 ， 如 下 所 示 : 


from math import factorial 
def binom(n: int, k: int) -> int: 












































这 
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Computes the binomial coefficient. 
This shows how many combinations of 
*n* things taken in groups of size *k*. 


:param n: size of the universe 
:param k: size of each subset 


:returns: the number of combinations 


SS BINOonm(S2.., 5) 
2598960 








return factorial(n) // (factorial(k) * factorial (n-k)) 


该 函数 执行 一 个 简单 的 计算 并 返回 一 个 值 。 可 以 在 _test_ 变量 中 添加 额外 的 测试 用 例 ， 说 明 
当 给 定 值 超 出 预期 范围 时 会 出 现 的 情况 。 





























11.3.2 ”实战 演练 


(1) 在 模块 中 创建 一 个 全 局 变 遇 


_test = 【{ 


竹 





test 6 


} 





我 们 留 出 了 空间 ， 可 以 插入 一 个 或 多 个 测试 用 例 。 
(2) 为 每 个 测试 用 例 提供 示例 的 名 称 和 占 位 符 


_test ={ 
'GIVEN_binom WHEN_wrong_relationship_T 


























o 











HEN_error': 


example goes here. 
/ 


} 














(3) 添加 调用 以 及 aoctest 指令 注释 IGNORE_ 
goes here” 。 








E 
[es 

bad 
A 











EPTION_DETAIL。 这 些 内 容 替 代 了 “example 





>>> binom(5, 52) # doctest: +IGNORE EXCEPTION_ DETAIL 


间 令 以 # doctest :开头 ， 用 + 表示 启用 ，- 表 示 禁 用 。 
(4) 添加 实际 的 回溯 消息 。 这 些 内 容 应 当 添 加 在 example goes here 占 位 符 中 , 跟随 在 >>> 语 句 之 后 ， 
显示 预期 的 响应 。 


Traceback (most recent call last): 


File "/Library/Frameworks/Python.framework/Versions/3.5/1ib/python3.5/doctest. 
BY E20 二 三 证 


compileflags, 1), test.globs) 






































File "<doctest main ._ test_ _.GIVEN_ binom WHEN_wrong_relationship_THEN_ 
error[0]>", line 1, in <module> 
binom(5, 52) 
File 


"/Users/slott/Documents/Writing/Python Cookbook/code/chl11_r0l.py", 
in binom 

return factorial(n) // (factorial (k) 
ValueError: factorial() 


line 24, 


* factorial (n-k)) 
not defined for negative values 

















(5) 以 File. . .开头 的 3 行将 被 忽略 。doctest 将 检查 ValueError: 行 ， 以 确保 测试 产生 预期 的 
异常 。 

全 部 语句 如 下 所 示 : 

ES 


'GIVEN_binom WHEN_wrong_relationship_ THEN_error': :1 
>>> binom(5, 52) # doctest: +IGNORE_ EXCEPTION_DETAIL 
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Traceback (most recent call last): 
File "/Library/Frameworks/Python.framework/Versions/3.5/1lib/python3.5/ 
doctest.py", line 1320, in __run 
compileflags, 1), test.globs) 
File "<doctest main test_ _.GIVEN_ binom WHEN_wrong_relationship_THEN_ 
error[0]>", line 1, in <module> 


binom(5, 52) 
File "/Users/slott/Documents/Writing/Python Cookbook/code/ch1l1 _r01l.py", 





line 


24, in binom 
return factorial(n) // (factorial(k) * factorial (n-k)) 
ValueError: factorial() not defined for negative values 





} 
现在 可 以 使 用 一 个 命令 来 测试 整个 模块 的 功能 ， 如 下 所 示 : 


Python3 .5 -R -m doctest ch11_r01.pY 














11.3.3 ”工作 原理 
doctest 解析 器 有 几 个 指令 可 用 于 修改 测试 行为 。 指 令 作为 特殊 注释 包含 在 执行 测试 操作 的 代码 
行 里 。 
包含 异常 的 测试 有 两 种 处 理 方法 。 
口 使 用 # doctest: +IGNORE_EXCEPTION_DETAIL 并 提供 一 个 完整 的 回溯 错误 消息 。 回 漳 的 
羊 细 信 息 将 被 忽略 ， 而 只 匹配 最 终 的 异常 行 和 预期 值 。 这 种 方法 能 很 容易 地 将 实际 错误 复制 
粘贴 到 文档 中 。 
口 使 用 # doctest: +ELLIPSIS 并 用 .. .替换 部 分 回溯 消息 。 这 种 方法 还 将 省 略 期 望 输出 的 详 
细 信 息 ， 并 专注 于 包含 实际 错误 的 最 后 一 行 。 
对 于 第 二 种 异常 示例 ， 样 板 测 试用 例如 下 所 示 : 


'GIVEN_binom WHEN_negative_THEN_exception': 



























































局 



























































>>> binom(52, -5) # doctest: +ELLIPSIS 
Traceback (most recent call last): 


ValueError: factorial() not defined for negative values 

















该 测试 用 例 使 用 了 +ELLIPSIS 指令 。 错 误 的 回 渊 信息 详情 已 经 用 无 关 紧 要 的 . . .替代 了 。 相 关 信 
息 被 完整 保留 ， 以 便 实际 的 异常 信息 精确 匹配 预期 的 异常 信息 。 

doctest 将 忽略 开头 的 Traceback. . . 行 和 最 后 的 ValueError: .. . 行 之 间 的 所 有 内 容 。 一 般 
来 说 ， 最 后 一 行 对 于 正确 执行 测试 是 很 重要 的 ， 而 中 间 的 文本 取决 于 运行 测试 的 上 下 文 。 







































































11.3.4 ”补充 知识 


可 以 提供 给 单独 测试 的 比较 指令 如 下 。 
口 +ELLIPSIS: 该 指令 可 以 通过 . . .替换 信息 详情 来 概括 预期 的 结 且 
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被 忽略 ， 只 检查 最 后 的 异常 行 。 








者 间距 与 标准 Python 值 略 有 不 同 。 





口 +ICNORE_EXCEPTION_DETAIL: 该 指令 允许 期 望 值 包 








含 完整 的 回溯 消息 。 大 部 分 回溯 信息 将 








口 +NORMALIZE_WHITESPACE: 在 某 些 情况 下 , 为 了 便于 阅读 ,预期 值 可 能 会 被 包装 为 多 行 , 或 


























使 用 该 指令 允许 使 











口 +SKIP: 跳 过 测试 。 这 个 指令 有 时 



































将 通过 匹配 True 和 1 来 履行 这 个 | 




















用 空白 为 期 望 值 提供 一 些 灵 活性 。 

用 于 对 未 来 版 本 设计 

试 。 这 个 测试 可 以 保留 在 未 来 的 开发 工作 中 ,但 是 为 了 及 时 发 布 一 个 版 本 而 被 跳 过 。 

口 +DONT_ACCEPT_TRUE_FOR_1: 该 指令 涵盖 了 Python 2 中 常见 的 一 个 特殊 情况 。 在 Python 语言 
加 入 True 和 False 之 前 ,我 们 用 值 1 和 0 来 代替 。 比 较 预 期 结果 与 实际 结果 的 doctest 算法 

日 方案 。 该 指令 可 以 在 命令 行 中 使 用 -o DONT_AcCEPT 











的 测试 。 可 能 会 在 功能 完成 之 前 添加 测 



























































TRUE_FOR_1 来 提供 。 这 种 变化 会 在 全 局 范围 内 适用 于 所 有 的 测试 。 
口 +DONT_ACCEPT_BLANKLINE: 通常 ， 空 白 行 代表 一 个 示例 结束 了 。 在 示例 输出 包括 一 个 空白 
行 的 情况 下 ， 预 期 结果 必须 使 用 特殊 语法 <blankline>。 使 用 该 选项 可 以 显示 预期 空白 行 的 
结束 。 在 非常 罕见 的 情况 下 ， 预 期 输出 实际 上 将 包含 字符 
有 于 表示 一 个 空白 行 ， 而 是 代表 它 自 己 。 在 









































位 置 ， 而 且 该 示例 不 会 以 此 空白 行 











[= 























为 dgoctest 模块 本 身 编写 测试 时 ， 








串 <plank1ine>。 这 个 指令 确保 <blankl1ine> 不 月 


























这 是 有 意义 的 。 
























































在 对 testmod () 或 testfile() 函数 求 值 时 ， 这 些 指令 也 可 以 作为 optionsflags 参数 提供 。 


11.3.5 “延伸 阅读 























口 关于 doctest 的 基础 知识 ， 请 参阅 11.2 节 。 
口 需要 使 用 aoctest 指令 的 其 他 特殊 情况 ， 请 参阅 11.4 节 。 


11.4 ”处 理 常见 的 aoctest 问题 





UD 





在 优秀 的 Python 代码 
符 串 中 创建 有 用 的 、 翔 实 的 文档 。 

















， 每 个 模块 、 类 、 函 数 和 方法 都 包含 文档 字符 串 。 许 多 工具 可 以 从 文档 字 











示例 是 文档 字符 串 的 一 个 重要 元 素 , 可 以 转换 为 单元 测试 用 例 。 aoctest 对 预期 输出 与 实际 输出 
进行 简单 的 文本 匹配 。 但 是 ， 有 些 Python 对 象 在 每 次 被 引用 时 都 不 一 致 。 
例如 ， 所 有 对 象 的 散 列 值 都 是 随机 的 。 这 意味 着 集 (set ) 的 元 素 顺 序 或 字典 的 键 顺序 是 可 变 的 。 














创建 测试 用 例 示例 输出 有 几 种 选择 。 










































































用 散 列 随机 化 。 








口 使 用 -R 选项 运行 Python 来 完全 禁 















































口 浮 点 值 可 能 会 因 平台 而 异 。 





口 当前 的 日 期 和 时 间 在 测试 用 例 中 无 法 有 效 地 使 用 。 





口 编写 可 以 容忍 随机 化 的 测试 ， 通 常 通过 将 随机 化 转换 为 有 序 结构 来 实现 。 


口 设置 PYTHONHASHSEED 环境 变量 值 。 


除了 集中 键 的 位 置 或 元 素 的 简单 变化 之 外 ， 还 有 其 他 几 个 考虑 因素 。 
口 ia() 函数 和 repr () 函数 可 能 会 暴露 内 部 对 象 的 ID 。 不 能 保证 这 些 ID 值 不 会 发 生变 化 。 
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口 使 用 默认 种 子 的 随机 数 很 难 预 测 。 
口 操作 系统 资源 可 能 不 存在 ， 也 可 能 不 在 适当 的 状态 。 

本 实例 将 重点 讨论 前 两 个 问题 和 一 些 doctest 技术 。11.7 节 和 11.8 节 将 讨论 涉及 日 期 以 及 随机 性 的 
测试 。11.9 节 将 讨论 如 何在 测试 中 使 用 外 部 资源 。 

doctest 示例 需要 与 文本 精确 匹配 。 如 何 编写 正确 处 理 散 列 随机 化 或 浮 点 值 实现 细节 的 
doctest 示例 ? 


11.4.1 准备 工作 


9.5 节 介 绍 了 csv 模块 读 取 数 据 并 为 每 行 输入 创建 一 个 映射 的 工作 原理 。 该 实例 使 用 了 一 个 CSV 文 
件 ， 其 中 包含 一 些 帆船 日 志 记 录 的 实时 数据 。 这 就 是 waypoints.csv 文件 。 
DictReader 类 产生 的 行 如 下 所 示 : 


{dateérp "OL2 EL 
'Jat': '32.8321666666667', 
Lom a. -79.9338333333333, 
机 TS 


这 对 于 aoctest 来 说 后 果 很 严重 ， 因 为 散 列 随机 化 导致 这 个 字典 中 的 键 可 能 具有 不 同 的 顺序 。 
当 我 们 尝试 编写 包含 字典 的 aoctest 示例 时 ， 经 常会 遇 到 如 下 问题 : 


Failed example: 
next (row_iter) 





































































































Expected: 
CC "ale VO0L2= L277 “Tab m3.8321666666667, 
"Eon 909338333333333 tine 1.0951500} 
Got: 
On a "79.9338333333333. Itine es “O09 500.., 


‘date': 12012-11-27', 'lat': '32.8321666666667'} 

预期 行 和 实际 行 中 的 数据 明显 是 匹配 的 。 但 是 ,字典 值 的 字符 串 显 示 并 不 完全 相同 。 键 不 会 以 始 
终 如 一 的 顺序 显示 。 

本 实例 还 将 讨论 一 个 实 值 函 数 ， 以 便 正 确 地 测试 浮 点 值 。 


p(n)= 外 +erf 畜 ] 
这 个 函数 是 标准 z 分 数 的 累积 概率 密度 函数 。 在 归 一 化 一 个 变量 之 后 ， 该 变量 z 分 数值 的 均值 为 
0， 标准 差 为 1。 更 多 关于 标准 化 分 数 概 念 的 信息 ， 请 参阅 8.9 广 。 
9(n) 函数 说 明了 总 体 样本 有 多 少 低 于 给 定 的 z 分 数 。 例 如 ，p(0)=0.5 表示 有 一 半 总 体 样本 的 = 
分 数 低 于 0。 
该 函数 包含 一 些 非常 复杂 的 处 理 。 单 元 测试 必须 能 够 反映 浮 点 精度 问题 。 


11.4.2 ”实战 演练 
本 实例 分 为 两 个 子 例 ， 其 中 一 个 讨论 映射 ( 和 集 ) 的 排序 ， 另 一 个 讨论 浮 点 值 。 
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1. 为 映射 或 集 的 值 编写 aoctest 示例 
(1) 导入 必需 的 库 并 定义 函数 。 


import csv 
def raw_reader (data_file): 








Read from a given, open file. 


:param data_file: Open file, ready to be processed. 
:returns: iterator over individual rows as dictionaries. 


Example: 


data_reader = csv.DictReader (data_file) 
for row in data_ reader: 
yield row 


我 们 在 文档 字符 串 中 添加 了 示例 标题 。 
(2) 用 io 包 中 stringI0 类 的 实例 蔡 换 实际 的 数据 文件 ,这 个 步骤 可 以 为 示例 提供 固定 的 样本 数据 。 
>>> from io import StringIO 
>>> mock file = StringIO0('''lat,lon,date,time 
. 32.8321,-79.9338,2012-11-27,09:15:00 


>>> row_ iter = iter(raw reader (mock file)) 


(3) 在 概念 上 ， 测 试用 例如 下 所 示 。 这 段 代码 无 法 正常 工作 ， 因 为 键 是 不 断 变 化 的 。 但 是 ， 我 们 
可 以 轻松 地 重 构 这 段 代码 。 


>>> row = next (row iter) 
>>> row 
{'time': '09:15:00', 'lat': '32.8321', etc. } 


我 们 省 略 了 输出 的 其 余部 分 ， 因 为 每 次 运行 测试 时 它们 都 会 有 所 不 同 。 
为 了 强制 固定 键 的 顺序 ， 必 须 重 写 代 码 ， 如 下 所 示 : 

>>> sorted(row.items()) # doctest: +NORMALIZE WHITESPACE 
[('date', '2012-11-27'), ('lat', '32.8321'), 

('lon', '-79.9338'), ('time', '09:15:00')] 

有 序 的 元 素 将 保持 始终 如 一 的 顺序 。 

2. 为 浮 点 值 编写 aoctest 示例 

(1) 导入 必需 的 库 并 定义 函数 。 

from math import * 

def phi (n): 


















































[hdll 








The cumulative distribution function for the standard normal 
distribution. 


:param n: number of standard deviations 
:returns: cumulative fraction of values below n. 
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Examples: 


return (1l+erf (n/sqrt (2)))/2 
在 文档 字符 串 中 为 示例 留 下 了 空间 。 
(2) 每 个 示例 都 包含 一 个 rouna () 的 显 式 使 用 。 
>>> round (phi(0), 3) 
0.399 
>>> round (phi(-1), 3) 
0.242 


>>> round (phi(+1), 3) 
0.242 


浮 点 值 将 被 舍 人 ， 因 此 浮 点 值 实现 细节 的 差异 不 会 导致 看 似 不 正确 的 结果 。 
11.4.3 ”工作 原理 


因为 散 列 随机 化 ， 所 以 用 于 字典 的 散 列 键 是 不 可 预测 的 。 这 是 一 种 重要 的 安全 功能 ， 可 以 抵御 巧 
妙 的 拒绝 服务 攻击 。 详 细 信 息 请 访问 http://www.ocert.org/advisories/ocert-2011-003.html。 
没有 定义 顺序 的 字典 键 有 两 种 使 用 方法 。 
口 编写 特定 于 每 个 键 的 测试 用 例 。 
>>> row['date'] 
'2012-11-27' 
>>> row['lat'] 
'32.8321' 
>>> row['lon'] 
'-79.9338' 


>>> row['time'] 
'09:15:00' 


口 将 现 有 结构 转换 为 具有 固定 顺序 的 数据 结构 。row. items () 值 是 一 个 可 迭代 的 键 值 对 序列 。 
我 们 没有 提前 设置 顺序 ， 但 是 可 以 使 用 以 下 命令 强制 排序 。 




















































































































>>> sorted(row.items()) 
这 样 将 返回 一 个 按 顺序 排列 的 键 的 列表 。 这 种 方法 允许 我 们 创建 一 个 一 致 的 字面 值 ， 该 字面 值 在 
次 执行 测试 时 总 是 相同 的 。 
大 多 数 浮 点 实现 都 是 相当 一 致 的 。 然 而 ， 对 于 任何 给 定 浮 点 数 的 最 后 几 位 来 说， 几乎 都 不 能 确保 
致 。 通 常 ， 将 值 舍 入 为 符合 问题 域 的 值 更 为 简单 ， 而 不 是 相信 所 有 53 位 都 具有 正确 的 值 。 
对 于 大 多 数 现代 处 理 带 ， 浮 点 值 通常 为 32 位 或 64 位 值 。 一 个 32 位 值 大 约 有 7 个 十 进 制 数 字 。 
此 ， 对 浮 点 值 进行 伟人 ， 使 值 不 超过 6 个 数字 通常 是 最 简单 的 解决 方法 。 

将 浮 点 值 舍 入 为 6 个 数字 并 不 意味 着 可 以 直接 使 用 *ounda(x，6) 。round() 函数 不 保留 数字 的 
所 有 位 数 ， 只 保留 小 数 点 右 侧 的 小 数位 数 ， 并 不 考虑 小 数 点 左 侧 的 位 数 。 对 于 rouna (x，6) 来 说 ， 
如 果 x 的 值 大 约 为 10 ,那么 结果 将 有 18 个 数字 。 这 个 结果 对 于 32 位 值 来 说 ， 数 字 位 数 太 多 了 。 如 
果 x 的 值 大 约 为 10”， 那 么 结果 可 能 为 0。 
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11.4.4 ”补充 知识 


在 使 用 set 对 象 时 ， 还 必须 注意 元 素 的 顺序 。 通 常 可 以 使 用 sorted() 将 set 转换 为 1ist， 并 
































Python aict 对 象 的 使 用 场景 非常 广泛 。 
口 在 编写 使 用 ** 收 集 参 数值 字典 的 函数 时 ， 不 能 保证 参数 的 顺序 。 
口 在 使 用 诸如 vars () 的 函数 从 局 部 变量 或 从 对 象 的 属性 创建 字典 时 ， 不 能 保证 字典 键 的 顺序 。 
口 在 编写 依赖 类 定义 内 省 的 程序 时 ， 方 法 定义 在 一 个 类 级 别 的 字典 对 象 中 ， 无 法 预测 它们 的 
顺序 。 

在 使 用 不 可 靠 的 测试 用 例 时 ， 这些 问题 将 变 得 更 明显 。 看 似 随机 通过 或 失败 的 测试 用 例 可 能 具有 
基于 散 列 随机 化 的 结果 。 提 取 键 并 对 其 进行 排序 就 可 以 解决 此 问题 。 

我 们 也 可 以 使 用 命令 行 选项 来 运行 测试 : 


python3.5 -R -m doctest chi1ll1 r03.py 
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在 对 特定 文件 chl1_r03.py 运行 aoctest 时 ， 这 个 命令 将 关闭 散 列 随机 化 。 
11.4.5 ”延伸 阅读 


口 在 11.7 节 中 ， 需 要 特别 注意 datetime 的 now() 方 法 。 
口 11.8 节 将 展示 如 何 测试 涉 及 random 的 处 理 。 


11.5 ”创建 单独 的 测试 模块 和 包 


我 们 可 以 在 文档 字符 串 示 例 中 进行 任意 类 型 的 单元 测试 。 但 是 ， 如 果 采 用 这 种 测试 方式 ， 有 些 事 
情 可 能 变 得 极其 乏味 。 
unittest 模块 的 功能 比 简单 的 文档 字符 串 示例 更 强大 。unittest 模块 提供 的 测试 依赖 于 测试 
用 例 类 的 定义 。Testcase 类 的 子 类 可 以 用 来 编写 非常 复杂 的 测试 ， 这 比 完成 相同 测试 的 aoctest 
示例 更 简单 。 

unittest 模块 还 允许 在 文档 字符 串 外 部 包装 测试 。 这 对 于 那些 在 文档 中 帮助 不 大 的 个 别 复杂 测 
试 是 有 帮助 的 。 理 想 情况 下 ，qdoctest 的 用 例 说 明了 主流 程 (happy path )， 即 最 常见 的 用 例 。 通 常用 
unittest 来 测试 偏离 主流 程 的 测试 用 例 。 

如 何 创 建 更 复杂 的 测试 ? 


11.5.1 ”准备 工作 


测试 通常 可 以 概述 为 一 个 三 段 式 的 GIVEN-WHEN-THEN 描述 。 
口 GIVEN: 一 些 初始 状态 或 上 下 文 。 

口 WHEN: 请 求 某 个 行为 时 。 

口 THEN: 被 测 组 件 有 一 些 预 期 的 结果 或 状态 变化 。 
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Testcase 类 并 没有 原封 不 动 地 遵循 这 个 三 段 式 结构 ， 而 是 只 有 其 中 两 个 部 分 。 关 于 在 哪里 分 配 
测试 的 三 个 部 分 ， 必须 做 出 一 些 设计 上 的 选择 。 
口 setUp () 方 法 : 实现 测试 用 例 的 GIVEN 方面 ， 也 可 以 处 理 WHEN 方面 。 
口 runTest () 方 法 : 必须 处 理 THEN 方面 也 可 以 处 理 WHEN 方面 。THEN 条 件 由 一 系列 的 断 

言 证 实 。 这 些 断 言 通常 使 用 Testcase 类 的 复杂 断言 方法 。 

选择 实现 WHEN 方面 的 位 置 与 重用 问题 有 关 。 在 大 多 数 情 况 下 , 有 很 多 可 供 选 择 的 WHEN 条 件 ， 
每 个 条 件 都 有 唯一 的 THEN 来 确认 正确 的 操作 。 对 于 setUp () 方 法 来 说 ，GIVEN 可 能 是 很 常见 的 ， 
由 多 个 restcase 子 类 共享 。 每 个 子 类 都 具有 唯一 的 runTest ( ) 方 法 来 实现 WHEN 和 THEN 方面 。 

在 某 些 情况 下 ，WHEN 方面 被 分 为 一 些 常见 的 部 分 和 一 些 特定 于 测试 用 例 的 部 分 。 在 本 例 中 ， 
WHEN 方面 可 能 一 部 分 在 setUp () 方 法 中 定义 ， 一 部 分 在 runTest () 方 法 中 定义 。 

本 实例 将 为 一 个 则 在 计算 某 些 基本 描述 性 统计 信息 的 类 创建 一 些 测试 。 我 们 希望 提供 的 样本 数据 
远 远 大 于 作为 doctest 示例 输入 的 数据 ， 并 想 使 用 几 千 个 数据 点 ， 而 不 是 两 三 个 。 

待 测试 的 类 定义 的 概要 如 下 。 我 们 只 会 提供 方法 和 一 些 摘要 , 大 部 分 代码 曾经 在 11.2 节 中 使 用 i 
我 们 省 略 了 所 有 实现 细节 。 以 下 代码 只 是 一 个 类 的 概要 ， 只 提供 了 方法 的 名 称 : 


from statistics import median 
from collections import Counter 
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class Summary: 
def. . Tnite (SeLE)s 
pass 


def __str__(self): 
'''Returns a multi-line text summary.''' 


def add(self, value): 
'''Adds a value to be summarized.''! 


@property 
def count (self): 
'''Number of samples.''' 


@property 
def mean (self): 
'''Mean of the collection.''' 


@property 

def median (self): 
'''Median of the collection.''' 
return median(self.counts.elements()) 





@property 
def mode (self): 


'''Returns the items in the collection in decreasing 
order by frequency. 








因为 不 关注 实现 细节 ， 所 以 这 是 一 种 黑 盒 测 试 。 代 码 可 以 被 认为 是 一 个 内 部 不 透明 的 黑 盒 子 。 为 
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了 强调 这 一 点 ， 我 们 省 略 了 上 述 代码 的 实现 细节 。 
我 们 既 想 确保 在 使 用 大 量 样本 时 该 类 能 够 正确 执行 ， 又 想 确保 它 具 有 很 快 的 运行 速度 。 我 们 将 使 
用 它 作为 整体 性 能 测试 以 及 单元 测试 的 一 部 分 。 
































11.5.2 ”实战 演练 


(1) 将 测试 代码 添加 到 与 被 测 代码 相同 的 模块 中 。 这 将 遵循 doctest 模式， 把 测试 和 代码 捆绑 在 一 
起 。 使 用 unittest 模块 来 创建 测试 类 。 


import unittest 
import random 


我 们 还 将 使 用 random 来 打 乱 输入 数据 。 

(2) 创建 unittest .TestCase 的 一 个 子 类 。 为 该 类 提供 一 个 能 够 显示 测试 意图 的 名 称 。 

class GIVEN_Summary_WHEN_1k_samples_THEN_ mean(unittest .TestCase) : 

GIVEN-WHEN-THEN 风格 的 名 称 非常 长 。 因 为 我 们 将 依靠 unittest 发 现 Testcase 的 所 有 子 
类 ， 所 以 不 必 多 次 输入 这 个 类 名 。 

(3) 在 该 类 中 定义 一 个 setUp () 方 法 来 处 理 测试 的 GIVEN 方面 ,该 方法 用 于 创建 一 个 测试 处 理 的 
上 下 文 。 


def setUp(self): 
self.summary = Summary () 
self.data = list(range(1001)) 
random.shufflel(self.data) 


我 们 创建 了 一 个 范围 为 0 到 1000 的 样本 集合 (均值 是 500， 中 位 数 也 是 500 )， 并 且 已 将 数据 随 
机 排列 。 
(4) 定义 一 个 runTest () 方 法 来 处 理 测试 的 WHEN 方面 。 该 方法 用 于 执行 状态 更 改 。 


def runTest (self): 
for sample in self.data: 
self.summary.add (sample) 


(5) 添加 断言 来 实现 测试 的 THEN 方面 。 该 步骤 用 于 确认 状态 变化 是 否 正 确 。 


self.assertEqual (500, self.summary .mean) 
self.assertEqual (500, self.summary .median) 


(6) 为 了 便于 运行 ， 添 加 主 程序 。 


下 下 name i 
unittest.main() 


通过 该 步 台 ,我 们 既 可 以 在 命令 提示 符 下 运行 测试 ， 也 可 以 在 命令 行 运行 测试 。 
















































































生 





























11.5.3 ”工作 原理 
我 们 使 用 了 unittest 模块 的 多 个 部 分 。 
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口 restcase 类 用 于 定义 一 个 测试 用 例 。 该 类 可 以 添加 一 个 setUp () 方 法 来 创建 单元 ， 也 可 能 

是 请 求 。 该 类 必须 至 少 有 一 个 runTest () 来 发 出 请 求 并 检查 响应 。 
在 需要 构建 适当 的 测试 集 时 ， 可 以 在 文件 中 添加 许多 类 定义 。 对 于 简单 的 类 ， 可 
测试 用 例 。 对 于 复杂 的 模块 ， 可 能 有 几 十 甚至 几 百 个 测试 用 例 。 
口 unittest .main() 函数 包含 以 下 功能 。 

加 创建 一 个 空 的 Testsuite， 以 包含 所 有 Testcase 对 象 。 

和 使 用 默认 加 载 器 来 检查 模块 ， 并 查找 所 有 的 Testcase 实例 。 这 些 实例 都 将 被 加 载 到 

TestSuite 中 。 该 处 理 可 能 是 我 们 想 要 修改 或 扩展 的 。 

晶 然后 运行 Testsuite 并 显示 结果 的 摘要 信息 。 

当 运 行 此 模块 时 ， 输 出 如 下 所 示 : 




















能 只 有 几 个 



























































a 1 test in 0.005s 

OK 

当 所 有 测试 都 通过 时 ， 显 示 一 个 . 。 这 表明 测试 套件 正在 向 前 推进 。 在 一 行 - 之 后 是 测试 运行 的 
摘要 和 时 间 。 如 果 存 在 失败 或 异常 ， 那 么 将 通过 计数 来 反映 。 

最 后 ， 摘 要 ok 显示 所 有 测试 都 通过 了 。 

如 果 稍 微 更 改 测试 ， 让 测试 运行 失败 ， 那 么 就 可 以 看 到 以 下 输出 : 




















Traceback (most recent call last): 


File "/Users/slott/Documents/Writing/Python Cookbook/code/ch11 r04.py", line 24, 
in runTest 


self.assertEqual(501, self.summary .mean) 
AssertionError: 501 != 500.0 


Ran 1 test in 0.004s 
FAILED (failures=1) 

失败 的 测试 显示 下 ， 而 不 是 代表 通过 测试 的 . 。 之 后 是 失败 断言 的 回溯 信息 。 为 了 演示 测试 失败 
的 情况 ， 我 们 把 预期 的 均值 改 为 501 ， 而 不 是 实际 的 均值 500.0。 


最 终 的 摘要 为 FAILED， 包 括 了 整个 套件 失败 的 原因 : (failures=1)。 
11.5.4 ”补充 知识 


在 本 实例 中 ,runTest () 方 法 有 两 个 THEN 条 件 。 如果 其 中 一 个 条 件 失 败 , 那么 测试 将 因为 故障 
而 停止 ， 另 一 个 条 件 则 不 会 执行 。 





















































这 是 本 实例 测试 设计 的 一 个 弱点 。 如 果 第 一 次 测试 失败 ， 那 么 我 们 将 不 会 获得 所 有 必要 的 诊断 信 
息 。 应 该 避免 在 runTest () 方 法 中 使 用 独立 的 断言 集合 。 在 许多 情况 下 ， 测 试用 例 可 能 涉及 多 个 相关 


的 断言 ， 一 个 故障 就 可 以 提供 所 需 的 所 有 诊断 信息 。 断 言 的 聚集 程度 是 简单 性 和 诊断 细节 之 间 的 设计 
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权衡 。 

当 需 要 更 多 的 诊断 细节 时 ， 有 两 个 常用 选择 。 

口 使 用 多 个 测试 方法 代替 runTest () 。 编 写 多 个 名 称 以 test_ 开头 的 方法 ,删除 所 有 名 为 
runTest () 的 方法 。 默 认 测 试 加 载 程序 将 在 重新 运行 通用 setUp () 方 法 后 ， 分 别 执行 每 个 
test 方法 。 

口 使 用 多 个 GIVEN_Summary_NWHEN_1K_sampbles_THEN_ mean 类 的 子 类 ， 每 个 子 类 都 有 一 个 单 
独 的 条 件 。 由 于 setUp () 是 通用 的 ， 因 此 可 以 被 继承 。 

遵循 第 一 个 选择 的 测试 类 如 下 所 示 : 


class GIVEN_Summary_WHEN_1k_samples_THEN_ mean median (unittest.TestCase): 
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def setUp(self): 
self.summary = Summary () 
self.data = list (range(1001)) 
random.shuffle(self.data) 
for sample in self.data: 
self.summary.add (sample) 


def test_ mean(self): 
self.assertEqual (500, self.summary .mean) 


def test_ median(self): 
self.assertEqual (500, self.summary .median) 


通过 重 构 setUp () 方 法 来 添加 测试 的 GIVEN 和 WHEN 条 件 , 将 两 个 独立 的 THEN 条 件 分 别 重 构 
为 test_mean () 方 法 和 test_median() 方 法 。 该 类 没有 runTest () 方 法 。 

由 于 每 个 测试 分 开 运 行 ， 因 此 将 会 分 别 看 到 有 关 计 算 均 值 或 计算 中 位 数 问题 的 错误 报告 。 

1. 其 他 断言 

TestCase 类 定义 了 很 多 可 以 用 于 THEN 条 件 的 断言 ， 最 常用 的 断言 如 下 。 
口 assertEqual() 和 assertNotEqual () 使 用 默认 的 == 运 算 符 来 比较 实际 值 和 预期 值 。 
口 assertTrue() 和 assertFalse() 需 要 一 个 单一 的 布尔 表达 式 。 
口 assertIs() 和 assertIsNot () 使 用 is 比较 来 确定 两 个 参数 是 否 是 对 同一 对 象 的 引用 。 
口 assertIsNone() 和 assertIsNotNone() 使 用 is 比较 给 定 值 是 否 为 None。 
口 assertIsInstance() 和 assertNotIsInstance() 使 用 isinstance() 函数 来 确定 给 定 值 
是 否 为 给 定 类 (或 类 的 元 组 ) 的 成 员 。 
口 assertAlmostEquals () 和 assertNotAlmostEquals() 将 给 定 值 的 小 数位 舍 入 为 7 位 , 以 
此 来 确定 大 部 分 数字 ( digit ) 是 否 相同 。 
口 assertRegex() 和 assertNotRegex() 使 用 正则 表达 式 比较 给 定 的 字符 串 。 这 种 断言 使 用 正 
则 表达 式 的 search () 方 法 来 匹配 字符 串 。 
口 assertCountEaual () 比较 两 个 序列 来 查看 它们 是 否 具 有 相同 的 元 素 ， 而 不 用 考虑 元 素 的 顺 

序 。 该 断言 也 可 以 方便 地 比较 字典 键 和 集合 。 

断言 还 有 很 多 其 他 方法 ， 其 中 一 些 提 供 了 检测 异常 、 警 告 和 日 志 消 息 的 方法 ， 另 外 一 些 提供 了 更 
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多 特定 类 型 的 比较 功能 。 
例如 ，summary 类 的 众 数 方法 产生 一 个 列表 。 可 以 使 用 特定 的 assertListEqual () 上 断言 来 比较 
ZE 


< 本: 























class GIVEN_Summary_WHEN_1k_samples_THEN mode (unittest .TestCase) : 





def setUp(self): 

self.summary = Summary () 

self.data = [500]*97 

# 再 构建 903 个 元 素 ， 每 个 元 素 nn 将 出 现 n 火 

for i in range(1,43): 
self.data += [i]*i 

random.shuffle(self.data) 

for sample in self.data: 
self.summary .add (sample) 


def test._mode(self): 
top_3 = self.summary.mode[:3] 
self.assertListEqual([(500,97), (42,42), (41,41)], top_3) 


首先 ,我们 构建 了 一 个 具有 1000 个 值 的 集合 ， 其 中 97 个 元 素 是 500， 其 余 的 903 个 是 从 1 到 42 
的 数 。 这 些 数 有 一 个 简单 的 规则 : 数 的 值 等 于 它 在 集合 中 的 频率 数 。 这 个 规则 更 容易 确认 结果 。 

setUp () 方 法 将 数据 随机 排列 ， 然 后 使 用 adaa ( ) 方法 构建 summary 对 象 。 

我 们 还 使 用 了 test_mode () 方 法 ,该 方法 可 以 扩展 测试 添加 其 他 的 THEN 条 件 。 本 例 检 查 了 mode 
中 的 前 3 个 值 ， 以 确保 其 具有 预期 的 值 分 布 。assertListEqual() 比较 2 个 1ist 对 象 ， 如 果 任 意 
一 个 参数 不 是 列表 ， 那 么 我 们 将 得 到 一 个 更 具体 地 显示 该 参数 不 是 预期 类 型 的 错误 消息 。 

2. 单独 的 测试 目录 

我 们 已 经 在 与 正在 测试 的 代码 相同 的 模块 中 显示 了 Testcase 类 定义 。 对 于 规模 较 小 的 类 ， 这 种 
方法 是 有 帮助 的 。 与 类 相关 的 所 有 内 容 都 包含 在 一 个 模块 文件 中 。 

在 较 大 的 项 目 中 ,通常 的 做 法 是 将 测试 文件 隔离 到 一 个 单独 的 目录 中 。 测 试 代码 的 规模 可 能 ( 通 
常 ) 非常 大 。 测 试 代码 比 应 用 程序 代码 更 多 是 合理 的 。 

执行 完 上 述 步骤 后 ， 可 以 依靠 unittest 框架 的 发 现 应 用 程序 完成 测试 。 该 应 用 程序 可 以 搜索 指 
定 目录 来 查找 测试 文件 。 测 试 文件 通常 具有 匹配 test*.py 模式 的 名 称 。 如 果 为 所 有 测试 模块 使 用 简单 
而 一 致 的 名 称 ， 那 么 就 可 以 使 用 一 个 简单 的 命令 找到 并 运行 它们 。 

unittest 加 载 器 将 搜索 目录 中 的 每 个 模块 来 查找 所 有 Testcase 类 派生 的 类 ， 模 块 集合 中 的 类 
集合 就 构成 了 完整 的 Testsuite。 该 操作 可 以 使 用 操作 系统 命令 完成 : 

$ python3 -m unittest discover -s tests 


该 命令 将 在 项 目的 tests 目录 中 查找 所 有 测试 文件 。 










































































































































































11.5.5 ”延伸 阅读 


口 11.6 节 将 组 合 unittest 和 doctest。11.9 节 将 讨论 外 部 对 象 的 模拟 。 
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11.6 组合 unittest 测试 和 doctest 测试 





在 大 多 数 情况 下 ， 我 们 会 使 用 unittest 和 doctest 测试 


参阅 11.2 节 。 有 关 unittest 的 示例 ， 请 参阅 11.5 节 。 























用 例 的 组 合 。 有 关 doctest 的 示例 ， 请 











doctest 示例 是 模块 、 类 、 方 法 和 函数 的 文档 字符 串 的 一 个 基本 要 素 。unittest 
一 个 单独 的 tests 目录 中 ， 该 目录 中 的 文件 名 称 匹 配 test_*.py 模式 。 








如 何 将 这 些 不 同 的 测试 结合 成 一 个 简洁 的 包 ? 


11.6.1 准备 工作 





用 例 通 常 位 于 





回 过 头 来 看 一 下 11.2 节 中 的 示例 。 该 实例 为 Summary 类 创建 了 测试 ，summary 类 可 以 执行 一 些 


统计 计算 。 该 实例 在 文档 字符 串 中 添加 了 示例 。 
summary 类 的 开头 如 下 所 示 : 


class Summary : 
' Computes summary statistics. 


>>> s = Summary () 
.add (8) 

>>> s.add(9) 

>>> s.add(9) 

>>> round(s.mean, 2) 
8.67 

>>> s.median 

9 

2 Brinttetirtesy) 
mean = 8.67 
median = 9 


小 次 光 


mm mm 


8 
9 




















我 们 省 略 了 类 的 方法 ， 这 样 就 可 以 专注 于 在 文档 字符 串 中 提供 的 示例 。 
在 11.5 节 中 ， 我 们 编写 了 一 些 unittest.Testcase 类 ,来 为 summary 类 提供 附加 的 测试 。 我 








们 创建 的 测试 类 的 定义 如 下 所 示 : 


class GIVEN_Summary_WHEN_1k_samples_THEN mean median (unittest.TestCase): 





def setUp(self): 
self.summary = Summary () 
self.data = list(range(1001)) 
random.shufflel(self.data) 
for sample in self.data: 
self.summary.add (sample) 


def test_mean(self): 


self.assertEqual (500, self.summary .mean) 


def test_ median(self): 


self.assertEqual (500, self.summary .median) 
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该 测试 创建 了 一 个 summary 对 象 ， 这 是 GIVEN 方面 。 然 后 ， 向 Summary 对 象 添 加 一 些 值 ， 这 
是 测试 的 WHEN 方面 。 两 种 test_ 开头 的 方法 实现 了 该 测试 的 两 个 THEN 方面 。 
常见 的 项 目 文 件 夹 结构 如 下 所 示 : 


git-project-name/ 
statstools/ 
summary .py 
tests/ 
test_summary .py 


顶级 文件 夹 git-project-name 的 名 称 匹 配 源 代码 库 中 的 项 目 名 称 。 我 们 假设 正在 使 用 Git， 当 然 也 
可 能 是 其 他 工具 。 

在 顶级 目录 中 , 我 们 将 遵循 大 型 Python 项 目的 常见 惯例 。 该 目录 将 包含 一 系列 文件 ， 比 如 描述 项 
目的 README.rst，pip 用 来 安装 附加 软件 包 的 requirements.txt， 或 者 将 软件 包 安 装 到 标准 库 中 的 
setup.pyo 

statstools 目录 包含 一 个 模块 文件 summary.py, 它 为 模块 提供 有 趣 而 实际 的 功能 。 该 模块 的 文档 字 
符 串 分 散在 代码 中 。 

tests 目录 包含 另 一 个 模块 文件 test_summarypy, 它 包含 unittest 测试 用 例 。 我 们 选择 了 名 称 tests 
和 test_*.py， 以 便于 符合 测试 用 例 自动 搜索 的 规则 。 

我 们 需要 将 所 有 测试 组 合 为 一 个 单独 的 综合 测试 套件 。 

即将 演示 的 实例 名 称 使 用 了 ch11_r01， 而 不 是 更 有 意义 的 名 称 ， 例 如 summary。 真 正 的 项 目 通 
常 具有 巧妙 的 、 有 意义 的 名 字 。 因 为 本 书 的 内 容 相 当 多 ， 为 了 匹配 章节 和 实例 大 纲 ， 所 以 设计 了 类 似 
ch11_r01 的 名 称 。 

















































































































11.6.2 ”实战 演练 
(1) 本 实例 假设 unittest 测试 用 例 与 被 测试 代码 不 在 同一 个 文件 中 。 因 此 ， 本 实例 将 使 用 


ch11_r01 和 test_ch11_r01。 
为 了 使 用 aoctest 测试 ,必须 导入 aoctest 模块 。 我 们 将 组 合 aoctest 示例 和 Testcase 类 ， 
来 创建 一 个 综合 测试 套件 。 


import unittest 
import doctest 


假设 unittestTestcase 类 已 经 编写 好 了 ， 我 们 正在 为 测试 套件 添加 更 多 测试 。 
(2) 导入 正在 测试 的 模块 。 该 模块 的 文档 字符 串 包含 doctest 测试 。 

import ch11_r01 

(3) 为 了 实现 1oaq_tests 协议 ， 在 测试 模块 中 添加 以 下 函数 。 


def load_tests(loader, standard tests, pattern): 
return standard tests 


该 函数 必须 使 用 名 称 10ad_tests， 这 样 测试 加 载 嚣 才能 找到 它 。 
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(4) 为 了 结合 doctest 测试 ， 需 要 另 一 个 测试 加 载 器 。 我 们 将 使 用 doctest .DocTestsuite 类 
创建 一 个 套件 。 这 些 测试 将 作为 stangdargd_tests 的 参数 值 添 加 到 测试 套件 中 。 


def load_ tests(loader, standard tests, pattern): 
dt = doctest.DocTestSuite(ch11_r01) 
standargd_tests.addTests (dt) 
return standard tests 


loader 参数 是 当前 正在 使 用 的 测试 用 例 加 载 器 。stangdard_tests 值 是 默认 加 载 的 所 有 测试 ， 
通常 是 所 有 Testcase 子 类 的 套件 。pattern 值 是 提供 给 加 载 器 的 值 。 

添加 Testcase 类 和 整体 unittest .main() 函数 ,创建 一 个 综合 测试 模块 , 其 中 包括 unittest 
的 restcase 和 所 有 doctest 示例 。 

该 操作 可 以 通过 添加 以 下 代码 完成 : 


TT name Er nad 
unittest.main() 


我 们 可 以 运行 模块 并 执行 测试 。 


















































11.6.3 ”工作 原理 


当 执 行 该 模块 内 部 的 unittest.main() 时 ， 测 试 加 载 器 处 理 只 限于 当前 模块 。 加 载 器 将 找到 所 
有 扩展 Testcase 的 类 ， 这 些 类 是 提供 给 1oad_tests () 函数 的 标准 测试 。 

我 们 用 doctest 模块 创建 的 测试 来 补充 标准 测试 。 通 常 可 以 导入 被 测 模 块 ， 并 使 用 DocTestsuit 
从 已 导入 的 模块 构建 一 个 测试 套件 。 

unittest 模块 自动 使 用 1oaq_tests () 函数 ， 
例 用 附加 测试 补充 了 测试 套件 。 






























































函数 可 以 对 给 定 的 测试 套件 进行 各 种 操作 。 本 


Ke 





11.6.4 ”补充 知识 


在 某 些 情况 下 ， 模 块 可 能 相当 复杂 ， 需 要 多 个 测试 模块 。 我 们 也 许 有 几 个 名 为 tests/test_ 
module_feature.py 或 类 似 名 称 的 测试 模块 ， 这 表明 对 复杂 模块 的 不 同 功能 有 多 个 测试 。 

在 其 他 情况 下 ,我 们 可 能 有 一 个 测试 模块 ， 它 对 儿 个 不 同 但 紧密 相关 的 模块 进行 测试 。 一 个 包 可 
以 分 解 为 多 个 模块 。 但 是 ,一 个 单独 的 测试 模块 就 可 以 覆盖 被 测试 的 包 中 的 所 有 模块 。 

在 组 合 很 多 较 小 的 模块 时 ，1oad_tests () 区 数 中 可 能 有 多 个 套件 。 函 数 体 如 下 所 示 : 


def load_ tests(loader, standard tests, pattern): 
for module in ch11_r01，ch11_r02，ch11_r03 : 
dt = doctest.DocTestSuite (module) 
standard_ tests.addTests (dt) 
return standard tests 


该 函数 将 合并 多 个 模块 的 doctest。 
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11.6.5 ”延伸 阅读 


口 关于 doctest 的 示例 ， 请 参阅 11.2 节 。 关 于 unittest 的 示例 ， 请 参阅 11.5 节 。 


11.7 ”涉及 日 期 或 时 间 的 测试 


许多 应 用 程序 依靠 aatetime .datetime.now() 来 创建 时 间 惟 。 当 使 用 该 方法 进行 单元 测试 时 ， 
结果 基本 是 不 可 预测 的 。 此 处 存在 依赖 注入 ( dependency injection ) 问题 ， 应 用 程序 依赖 于 一 个 只 有 
在 测试 时 才 想 蔚 换 的 类 。 

一 种 选择 是 避免 使 用 now () 和 utcnow()。 可 以 创建 一 个 产生 时 间 惟 的 工厂 函数 ， 而 不 是 直接 使 
用 now() 和 utcnow()。 出 于 测试 的 目的 ， 可 以 用 产生 已 知 结果 的 函数 蔡 代 这 些 函数 。 避 免 在 复杂 应 
用 程序 中 使 用 now () 方 法 似乎 很 困难 。 

另 一 种 选择 是 避免 直接 使 用 整个 gatetime 类 。 这 种 方法 需要 设计 包装 datetime 类 的 类 和 模块 。 
之 后 可 以 用 为 now () 产 生 已 知 值 的 包装 类 进行 测试 。 不 过 ， 这 种 方法 似乎 也 过 于 复杂 。 

如 何在 测试 中 使 用 aatetime 时 间 戳 ? 


11.7.1 准备 工作 


本 实例 的 背景 信息 是 一 个 创建 CSV 文件 的 函数 。CSV 文件 的 名 称 将 包含 日 期 和 时 间 ， 如 下 所 示 。 

extract 20160704010203.json 

长 期 运行 的 服务 器 应 用 程序 可 能 会 使 用 这 种 文件 命名 约定 。 这 种 名 称 有 助 于 匹配 文件 和 相关 日 志 
事件 ， 还 有 助 于 跟踪 服务 器 正在 进行 的 工作 。 

我 们 将 使 用 以 下 函数 来 创建 这 些 文件 : 

import datetime 


import json 
from pathlib import Path 
























































































































































def save_datal(some payload): 
now_date = datetime.datetime.utcnow!() 
now_text = now_date.strftime('extract_%Y%m%$d%H%M%$S') 
file path = Path(now text) .with suffix('.json') 
with file path.open('w') as target_ file: 
json.dump (some payload, target file, indent=2) 


该 函数 使 用 了 utcnow () 方 法 。 从 技术 上 来 说 ， 可 以 重新 设计 函数 并 提供 时 间 戳 作为 参数 。 在 某 
些 情况 下 ， 这 种 重新 设计 可 能 会 有 所 帮助 。 对 于 重新 设计 ， 还 有 一 个 方便 的 方法 。 

我 们 将 创建 aatetime 模块 的 一 个 模拟 版 本 , 并 将 测试 上 下 文 应 用 于 模拟 版 本 , 而 不 是 实际 版 本 。 
该 测试 将 包含 aatetime 类 的 一 个 模拟 类 定义 。 在 该 类 中 ,我们 将 提供 一 个 utcnow() 的 模拟 方法 来 
提供 预期 响应 。 

由 于 被 测试 的 函数 创建 了 一 个 文件 ， 因 此 需要 考虑 操作 系统 的 后 续 处 理 。 当 同名 的 文件 已 经 存在 
时 应 该 怎么 办 ? 应 该 抛 出 一 个 异常 吗 ? 应 该 在 文件 名 中 添加 后 绥 吗 ? 根据 我 们 的 设计 决策 , 可 能 还 需 
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要 另外 两 个 测试 用 例 。 











口 给 定 一 个 没有 冲突 的 目录 。 在 这 种 情况 下 ，setUp () 方 法 可 以 删除 以 前 的 任何 测试 输出 。 我 
们 可 能 还 想 创 建 一 个 tearDovwn () 方 法 在 测试 后 删除 所 有 输出 文件 。 
口 给 定 一 个 具有 冲突 名 称 的 目录 。 在 这 种 情况 下 ，setUp () 方 法 将 创建 一 个 冲突 的 文件 。 我 们 








可 能 还 想 创建 一 个 tearDown () 方 法 在 测试 后 删除 所 有 输出 文件 。 
本 实例 假设 重复 的 文件 名 不 重要 。 新 文件 应 该 简单 地 覆盖 任何 以 前 的 文件 ， 不 发 出 警告 或 通知 。 
这 种 想法 很 容易 实现 ， 并 且 通 常 适合 现实 世界 的 场景 ， 有 时 候 没 有 理由 在 不 到 1 秒 的 时 间 内 创建 多 个 


文件 。 


11.7.2 


(1) 本 实例 假设 unittest 测试 用 例 与 被 测试 的 代码 在 同一 个 模块 


























实战 演练 











。 导 入 unittest 模块 和 








unittest .mock 模块 。 


impo 


rt unittest 


from unittest.mock import * 


unittest 模块 可 以 直接 导入 。 为 了 使 用 该 模块 的 特性 ， 必 须 使 用 名 称 unittest .来 进行 限定 。 


来 自 unittest.mock 的 各 种 名 称 都 被 导入 了 ， 所 以 这 些 名 称 可 以 在 没有 任何 限定 符 的 情况 下 使 用 。 





我 们 将 使 











用 模拟 模块 的 一 些 特性 ， 长 的 限定 名 称 有 些 不 方便 。 








(2) 添加 需要 测试 的 代码 。 这 些 代 码 在 前 面 已 经 提供 过 了 。 
(3) 创建 以 下 测试 框架 。 我 们 提供 了 一 个 类 定义 ， 以 及 一 个 可 用 于 执行 测试 的 主 脚本 。 


clas 


卫生 

















S GIVEN_data_WHEN_save_data_THEN_ file(unittest.TestCase): 
def setUp(self): 
'''GIVEN conditions for the test. 





def runTest (self): 
'''WHEN and THEN conditions for this test.'''' 


name na 





unittest .main() 


此 处 没有 定义 10ad_tests() 函数 ， 因 为 该 实例 不 包含 文档 字符 串 测 试 。 
(4) setUp () 方 法 分 为 以 下 几 个 部 分 。 





口 待 处 理 的 样本 数据 。 


self.data = {'primes': [2, 3, 5, 7, 11, 13, 17, 19]} 


口 datetime 模块 的 模拟 对 象 。 该 对 象 精确 地 提供 了 被 测 单元 使 用 的 功能 。Mock 模块 包含 
























































datetime 类 的 一 个 Mock 类 定义 。 该 类 提供 的 一 个 模拟 方法 utcnow () 总 是 提供 相同 的 响应 。 


self.mock_ datetime = Mock( 





datetime = Mock( 
utcnow = Mock( 
return value = datetime.datetime(2017, 7, 4, 1, 2, 3) 
) 
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) 
) 


口 下 面 给 出 了 上 述 datetime 对 象 的 预期 文件 名 。 

self.expected name = 'extract_20170704010203.json' 

口 需要 某 些 用 来 建立 GIVEN 条 件 的 配置 处 理 。 我 们 将 删除 所 有 以 前 版 本 的 文件 ， 以 此 来 确定 测 
试 断言 没有 使 用 以 前 测试 运行 的 文件 。 


self.expected path = Path(self.expected name) 
if self.expected path.exists(): 
self.expected path.unlink!() 


(5) runTest () 方 法 将 分 为 两 部 分 。 
口 WHEN 处 理 ,这 将 为 当前 模块 ”main。_ 打 补丁 ,以 便 datetime 的 引用 被 替换 为 self.mock_ 
datetime 对 象 。 然 后 ， 在 打 过 补丁 的 上 下 文中 执行 请 求 。 


with patcnh(' main .datetime', self.mock_ datetime): 
save_data (self.data) 


口 THEN 处 理 。 在 本 例 中 , 我 们 将 打开 预期 文件 ,加 载 内 容 ,， 并 确认 结果 是 否 
部 分 以 必要 的 断言 作为 结束 。 如 果 文 件 不 存在 ， 则 会 抛 出 IOError 异常 。 


with self.expected path.open() as result_file: 
result_data = json.load(result_file) 
self.assertDictEqual (self.data, result_data) 





























与 源 数据 匹配 。 该 






































11.7.3 ”工作 原理 


unittest .mock 模块 包含 两 个 我 们 需要 使 用 的 重要 组 件 一 一 Mock 对 象 定义 和 patch () 函数 。 

当 创 建 Mock 类 的 实例 时 ， 必 须 提供 结果 对 象 的 方法 和 属性 。 当 提供 命名 参数 值 时 ， 它 将 被 保存 
为 结果 对 象 的 属性 。 简 单 的 值 变 为 对 象 的 属性 ， 基 于 Mock 对 象 的 值 变 为 方法 函数 。 

当 创建 提供 return_value (或 side_effect ) 命名 参数 值 的 Mock 实例 时 ， 就 创建 了 一 个 可 
调用 对 象 。 模 拟 (mock ) 对 象 的 示例 如 下 所 示 ， 它 的 行为 与 哑 函 数 类 似 : 


>>> from unittest.mock import * 

>>> dumb function = Mock(return value=12) 
>>> dumb_function(9) 

12 

>>> dumb_ function(18) 

12 


我 们 创建 了 一 个 模拟 对 象 sumb_function, 它 的 行为 就 像 一 个 只 能 返回 值 12 的 可 调用 对 象 ( 函 
数 )。 对 于 单元 测试 ， 这 种 对 象 使 用 起 来 非常 方便 ， 因 为 结果 简单 而 且 可 预测 。 
更 重要 的 是 ，Mock 对 象 还 具有 以 下 功能 


>>> dumb_ function.mock calls 
[call(9), call(18)] 


dumb_function() 跟踪 了 每 个 调用 。 随 后 可 以 对 这 些 调用 使 用 断言 。 例 如 ,使 用 assert_ 
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calledq_with () 方 法 检查 最 后 一 次 调用 : 

>>> dumb_ function.assert called with(18) 

如 果 最 后 一 次 调用 确实 为 sumb_function(18) ， 那 么 这 个 调用 会 静默 地 成 功 执行 。 如 果 最 后 一 
次 调用 与 断言 不 匹配 , 则 会 抛 出 AssertionError 异常 , unittest 模块 将 捕获 该 异常 并 注册 为 测试 
失败 。 

可 以 使 用 以 下 代码 查看 更 多 细节 : 

>>> dumb function.assert has calls( [call(9), call(18)] ) 

这 个 断言 检查 了 整个 调用 记录 ， 它 使 用 Mock 模块 的 cal1 () 函数 来 描述 函数 调用 提供 的 参数 。 

patch () 函数 可 以 深入 模块 的 上 下 文 ， 更 改 上 下 文中 的 引用 。 在 本 例 中 , 我 们 用 patch () 调整 了 
当前 正在 运行 的 _main_ ”模块 中 的 定义 。 在 许多 情况 下 ， 我 们 将 导入 另 一 个 模块 ， 并 且 需 要 对 已 导 
入 的 模块 打 补 丁 。 深 入 正在 测试 的 模块 所 使 用 的 上 下 文 以 及 对 这 个 引用 打 补 丁 是 至 关 重 要 的 。 





















































































































































11.7.4 ”补充 知识 


本 实例 为 aatetime 模块 创建 了 一 个 模拟 。 

该 模块 只 有 一 个 元 素 ， 它 是 Mock 类 的 实例 ， 名 为 aatetime。 为 了 进行 单元 测试 ， 模 拟 类 的 行 
为 通常 与 返回 一 个 对 象 的 函数 相似 。 在 本 例 中 ,模拟 类 返回 了 一 个 Mock 对 象 。 
用 于 aatetime 类 的 Mock 对 象 具有 一 个 单一 的 属性 utcnow() 。 在 定义 这 个 属性 时 ， 使 用 了 特 
殊 的 关键 字 return_value， 以 便 返 回 一 个 固定 的 aatetime 实例 。 可 以 扩展 这 种 模式 并 模拟 多 个 属 
性 ， 使 其 更 像 一 个 函数 。 同 时 模拟 utcnow() 和 now() 的 例子 如 下 所 示 : 


self.mock datetime = Mock( 
datetime = Mock( 
utcnow = Mock( 
return value = datetime.datetime(2017, 7, 4, 1, 2, 3) 


















































); 
now = Mock( 
return value = datetime.datetime(2017, 7, 4, 4, 2, 3) 
) 
) 
) 


模拟 方法 utcnow () 和 now() 分 别 创建 了 一 个 不 同 的 aatetime 对 象 。 这 使 我 们 可 以 区 分 它们 的 值 ， 
更 容易 确认 单元 测试 的 正确 操作 。 
请 注意 , 在 setUp () 方 法 中 执行 Mock 对 象 的 所 有 构造 。 这 个 过 程 应 在 patch () 函数 打 好 补丁 之 
前 完成 。 在 setUup () 中 ，dqatetime 类 是 可 用 的 。 在 with 语句 的 上 下 文中 ，dqatetime 类 是 不 可 用 
的 ， 将 被 Mock 对 象 替换 。 
可 以 添加 以 下 断言 来 确认 被 测 单 元 正确 地 使 用 了 utcnow() 函数 : 


self.mock_ datetime.datetime.utcnow.assert_called_ once with() 


该 断言 将 检查 模拟 对 象 self .mock_gdatetime， 并 在 该 对 象 中 查看 datetime 属性 (已 定义 为 
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拥有 utcnow 属性 )。 我 们 期 望 该 断言 只 被 调用 一 次 ， 

如 果 save_dqata() 函数 没有 正确 调用 utcnow(), 那么 这 个 断言 将 检测 到 失败 。 测 试 接口 的 两 端 
都 很 重要 ， 因 此 测试 可 以 分 为 两 部 分 。 
口 被 测试 的 单元 正确 使 用 了 模拟 的 datetime 结果 。 
口 被 测试 的 单元 对 模拟 的 aatetime 对 象 发 出 了 适当 的 请 求 。 

在 某 些 情况 下 ， 可 能 需要 确认 从 未 调用 过 的 过 时 的 或 者 不 推荐 使 用 的 方法 。 可 以 使 用 以 下 断言 来 
确认 没有 使 用 男 一 个 方法 : 

self.assertFalse( self.mock datetime.datetime.called ) 

这 种 测试 应 当 在 重 构 软件 时 使 用 。 在 本 例 中 ,以 前 的 版 本 可 能 已 经 使 用 了 now() 方法。 修改 设 计 
后 ,需要 使 用 utcnow() 方 法 。 我 们 添加 了 一 个 测试 ， 确 保 不 再 使 用 now() 方 法 。 


















































11.7.5 ”延伸 阅读 
口 关于 unittest 模块 基本 用 法 的 详细 信息 ， 请 参阅 11.5 节 。 


11.8 涉及 随机 性 的 测试 


许多 应 用 程序 依靠 random 模块 来 创建 随机 值 或 随机 排列 值 。 在 许多 统计 测试 中 ， 需 要 执行 重复 
随机 混 洗 或 随机 子 集 计 算 。 在 测试 其 中 的 一 个 算法 时 ， 生 成 的 结果 基本 上 是 不 可 能 预测 的 。 

为 了 使 rangom 模块 可 以 预测 ， 从 而 编写 有 意义 的 单元 测试 ， 有 以 下 两 种 选择 。 
口 最 常见 的 选择 是 设置 一 个 已 知 的 种 子 值 ， 前 面 的 实例 已 大 量 使 用 了 这 种 方法 。 
口 通过 unittest .mock 用 随机 性 较 小 的 对 象 奉 换 random 模块 。 
如 何 对 涉及 随机 性 的 算法 进行 单元 测试 ? 


11.8.1 准备 工作 


给 定 一 个 样本 数据 集 ， 就 可 以 计算 一 个 统计 测度 ， 比 如 均值 或 中 位 数 。 通 常 下 一 步 将 确定 某 些 总 
体 样 本 的 统计 测度 的 可 能 值 ， 这 一 步骤 可 以 通过 自助 抽样 (bootstrapping ) 技术 完成 。 

这 种 技术 的 思想 是 重复 对 初始 数据 集 进 行 重 采 样 。 每 个 重 采 样 的 样本 都 提供 了 不 同 统计 测度 的 佑 
计 值 。 整 个 重 采 样 指标 集 表 明了 总 体 样本 测度 的 离散 情况 。 

确保 重 采 样 算法 正常 工作 有 助 于 消除 处 理 过 程 中 的 随机 性 。 可 以 使 用 非 随 机 版 本 的 rangdom. 
choice () 函数 ， 重 采样 精心 准备 的 数据 集 。 如 果 能 够 正常 运行 ， 那 么 就 可 以 认为 真正 随机 的 版 本 也 
能 够 正常 运行 。 

我 们 的 候选 重 采样 函数 如 下 所 示 。 需 要 验证 这 个 函数 ， 以 确保 能 够 正确 地 进行 重 置 抽样 。 


def resample (population, N): 
for i in range(N) : 
sample = random.choice (population) 
yield sample 
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应 用 resample() 函数 为 counter 对 和 象 填充 数据 ，counter 对 象 跟 踪 特 定 测度 ( 比如 均值 ) 的 
每 个 不 同 值 。 整 个 重 采样 的 过 程 如 下 所 示 : 


mean_distribution = Counter () 

for n in range(1000): 
subset = list(resample (population, N)) 
measure = round(statistics.mean(subset), 1) 
mean_ distribution[measure] += 1 





该 过 程 将 对 resample () 函数 求 值 1000 次 。 最 终 产 生 大 量子 集 ， 每 个 子 集 都 可 能 具有 不 同 的 均值 。 
这 些 值 用 于 向 mean_qdistripbution 对 象 填充 数据 。 

mean_dqistribution 的 直方 图 将 为 总 体 方差 提供 有 意义 的 估计 。 这 个 对 方差 的 估计 将 有 助 于 显 
示 总 体 样本 最 有 可 能 的 实际 均值 。 














11.8.2 ”实战 演练 
(1) 定义 整个 测试 类 的 大 纲 。 


class GIVEN_resample_WHEN_evaluatedq_THEN fair(unittest .TestCase) : 
def setUp(self): 


def runTest (self): 


Tf name Rat a 
unittest.main() 


添加 一 个 主 程序 ， 以 便 简 单 地 运行 模块 来 进行 测试 。 这 种 方法 在 使 用 IDLE 等 工具 时 非常 方便 。 
修改 模块 后 ， 可 以 使 用 F5 键 进行 测试 。 

(2) 定义 模拟 版 本 的 random.choice() 函数 。 我 们 将 提供 模拟 数据 集 self .data 以 及 choice() 
函数 的 一 个 模拟 响应 。 

Self.expbectead_resample_aqata.self.dqata = [2, 3, 5, 7, 11, 13, 17, 19] 

self.expected _ resample data = [23, 29, 31, 37, 41, 43, 47, 53] 

self.mock_random = Mock( 


choice = Mock( 
side_effect = self.expected_ resample data 














) 
) 





我 们 使 用 side_effect 属性 定义 了 choice() 函数 。 这 将 从 给 定 的 序列 一 次 返回 一 个 值 。 我 们 
提供 了 8 个 与 源 序列 不 同 的 模拟 值 ， 以 便 轻 松 识别 cnoice () 函数 的 输出 。 
(3) 定义 测试 的 WHEN 方面 和 THEN 方面 。 本 例 将 对 _main ”模块 打 补 丁 ， 替 换 对 random 模 
块 的 引用 。 然后, 测试 就 可 以 确认 结果 是 否 具 有 预期 的 值 集合 , 以 及 choice () 函数 是 否 被 多 次 调用 。 


with patch('_ main .random', self.mock_ random): 
resample data = list(resample(self.data, 8)) 
























































self.assertListEqual (self.expected_ resample data, resample_ data) 
self.mock_ random.choice.assert_has_calls( 8*[calll(self.data)] ) 
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11.8.3 ”工作 原理 


当 创建 Mock 类 的 实例 时 ， 必 须 提 供 结果 对 象 的 方法 和 属性 。 当 提供 命名 参数 值 时 ， 它 将 被 保存 
为 结果 对 象 的 属性 。 

当 创 建 提供 sige_effect 命名 参数 值 的 Mock 实例 时 ,就 创建 了 一 个 可 调用 对 象 ,每 次 调用 Mock 
对 象 时 ， 可 调用 对 象 将 从 sidqe_effect 列表 中 返回 一 个 值 。 

模拟 对 象 的 示例 如 下 ， 它 的 行为 与 哑 函 数 类 似 : 


>>> from Unittest .mock import * 
>>> dumb _ function = Mock(side effect=[11,13]) 
>>> dumb_ function(23) 
1 
>>> dumb_ function(29) 
13 
>>> dumb_ function(31) 
Traceback (most recent call last): 
. (traceback details omitted) 
StopIteration 


首先 ,我 们 创建 了 一 个 Mock 对 象 并 命名 为 daumb_function。 该 Mock 对 象 的 sidqe_effect 属 
性 提供 了 一 个 具有 两 个 不 同 值 的 短 列表 ， 这 两 个 值 将 被 返回 。 

然后 ， 使 用 两 个 不 同 的 参数 值 对 aumb_function () 进 行 两 次 评估 。 每 次 从 siqe_effect 列表 
中 返回 下 一 个 值 。 第 三 次 尝试 时 ， 抛 出 了 stopIteration 异常 ， 测 试 失 败 。 

这 种 行为 可 以 让 我 们 编写 测试 来 检测 函数 或 方法 的 某 些 错 误 用 法 。 如 果 函 数 被 调用 的 次 数 过 多 ， 
那么 将 会 抛 出 异常 。 必 须 使 用 各 种 可 用 于 Mock 对 象 的 断言 来 检测 其 他 错误 用 法 。 
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11.8.4 ”补充 知识 


我 们 可 以 用 模拟 对 象 轻松 地 替换 random 模块 的 其 他 功能 ， 这 些 对 象 提供 了 适当 的 行为 ， 而 且 实 
际 上 不 是 随机 的 。 例 如 ， 可 以 用 一 个 提供 已 知 顺序 的 函数 替换 shuffle() 函数 。 遵 循 上 述 测试 设计 
模式 的 示例 如 下 : 


self.mock_random = Mock( 
choice = Mock( 
side_effect = self.expected _ resample data 






































) 
shuffle = Mock!( 
return value = self.expected _ resample_ data 
) 
) 


模拟 shuffle() 的 函数 返回 一 组 不 同 的 值 ， 可 用 于 确认 某 些 处 理 是 否 在 正确 使 用 random 模块 。 














11.8.5 延伸 阅读 

口 4.7 节 、4.9 节 和 5.6 节 探 讨 了 如 何 通 过 设置 随机 数 生 成 器 的 种 子 值 创建 可 预测 的 值 序列 。 

口 第 6 章 中 的 多 个 实例 都 展示 了 替代 方法 ,例如 6.2 节 、6.3 节 、6.5 节 和 6.8 节 。 

口 同样 , 第 7 章 中 的 多 个 实例 也 展示 了 替代 方法 ,请 参阅 7.2 节 、7.3 节 、7.4 节 、7.7 节 和 7.8 节 。 
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11.7 节 和 11.8 节 
个 返回 值 就 能 很 好 地 工作 。 在 11.8 节 中 ， 对 象 
对 于 这 些 简单 情况 ， 
更 改 序列 构建 模拟 对 象 。 测 试用 例 精 确 地 反映 了 对 象 的 内 部 状态 


资源 


贷 六 











展示 了 模拟 简单 对 象 的 技术 。 在 11.7 节 





1, 被 模拟 的 对 象 本 质 上 是 无 状态 的 , 单 























测试 为 对 象 提供 了 一 系列 请 求 。 我 1 








具有 状态 变化 ， 
门 可 以 根据 已 知 的 、 


但 状态 变化 不 依赖 于 任何 输入 参数 。 
经 过 精心 计划 的 状态 
变化 。 这 种 测试 方法 有 时 被 称 为 白 盒 


测试 ， 因 为 需要 测试 对 象 的 实现 细节 来 定义 测试 序列 和 模拟 对 象 。 


然而 ， 在 某 些 情况 下 ， 测 试 场景 五 
测 的 顺序 进行 请 求 。 这 有 时 是 黑 盒 测试 ， 














能 不 涉及 明确 





























定义 的 状态 更 改 序列 ， 被 测 单元 可 能 会 以 难以 预 
其 中 的 实现 细 闻 是 未 知 的 。 


如 何 创建 具有 内 部 状态 的 复杂 模拟 对 象 并 使 其 内 部 状态 发 生变 化 ? 


11.9.1 





准备 工作 





本 实例 研究 如 何 模拟 有 状态 的 RESTful Web 服务 请 求 ， 将 使 








用 一 个 用 于 Elastic 数据 库 的 API。 该 














数据 库 的 优点 在 于 使 用 简单 的 RESTful Web 服务 。 这 些 RESTful Web 服务 很 容易 被 模拟 为 简单 快速 的 


单元 测试 。 
对 于 本 实例 ， 








将 对 象 的 ; 


我 们 将 测试 一 个 使 月 
( representational state transfer，REST ) 是 一 种 使 月 
在 处 理 之 间 传 输 对 象 状 态 表 示 的 技术 。 例 如 ， 为 了 创建 数据 库 记 录 ， 客 户 端 将 使 
状态 表示 传输 到 数据 库 服务 器 。 
测试 这 个 函数 涉及 模拟 urllib.reaquest 模块 的 一 部 分 。 











日 RESTful API 创建 数据 库 记 录 的 画 
日 超 文本 传输 协议 ( hypertext transfer protocol, HTTP ) 





数 。 表 征 状态 转移 








在 许多 情况 下 ，JSON 标记 











用 HTTP PosT 请 求 
用 于 表示 对 象 的 状态 。 
函数 就 可 以 让 测试 用 

















替换 urlopen() 


例 模拟 数据 库 活 动 。 这 样 就 可 以 测试 依赖 于 Web 服务 的 函数 , 而 不 会 真正 发 出 开销 较 大 或 缓慢 的 外 部 


请 求 。 
在 我 


口 可 以 在 笔记 本 电 
首先 安装 一 个 正确 
软件 。 本 实例 不 再 详细 





门 的 应 用 软件 中 使 





脑 





细 介 绍 这 种 方法 ， 








在 本 地 计算 机 上 创建 和 访问 对 象 的 URL 如 下 所 示 : 


http://localhost:9 
求 体 中 
以 使 用 托管 服务 ， 比 如 http://orchestrate.io。 
服务 不 0 API 密 钥 被 授予 
装 其 他 软件 ， 这 种 方法 似乎 很 方便 。 
0 URL 如 下 所 示 : 


请 求 将 使 用 请 
口 还 可 
托管 
很 多 集合 
在 远程 月 

















。 由 于 不 需 


200/eventlog/event/ 


























寺 定 应 用 














https://api.orchestrate.io/v0O/eventlog/ 





这 些 请 求 将 使 用 许多 HTTP 首部 向 主机 提供 信息 。 接 下 来 ,我 们 将 介绍 该 服务 的 详细 信 , 





用 elastic search API 的 方式 有 两 种 。 

疯 或 某 些 可 以 访问 的 服务 器 上 安装 Elastic 数据 库 。 安 装 过 程 分 为 两 个 部 分 ， 
的 Java 开发 工具 包 ( Java developer kit，JDK )， 然 后 再 安装 ElasticSearch 
因为 还 有 一 种 更 简单 的 方法 。 


的 多 个 数据 项 。 这 些 请 求 不 需要 任何 用 于 安全 或 身份 验证 的 HTTP 首部 。 
托管 服务 需要 注册 才能 获得 一 个 API 密 钥 ， 
程序 的 访问 权限 。 在 








应 用 程序 中 , 可 以 创建 
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Co 
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实例 中 文档 的 数据 有 效 载荷 如 下 所 示 : 


{ 
"timestamp es “20L6-06=15T17:57T:04.715™, 


"Jevelname": "INFO", 
"module": "ch09_r10", 
"message": "Sample Message One" 


} 


这 个 JSON 文档 表示 一 个 日 志 条 目 ， 取 自前 面 实例 使 用 过 的 sample.log 文件 。 可 以 将 该 文档 理解 
et 它 将 被 保存 在 数据 库 的 sventlog 索引 中 。 该 对 象 具 有 4 个 值 为 字符 串 
的 属性 。 

9.6 节 介 绍 了 解析 复杂 日 志文 件 的 方法 。 在 9.12 节 中 ,复杂 的 日 志 记 录 被 保存 为 CSV 文件 。 本 实 
例 将 介绍 如 何 使 用 数据 库 ( 比如 Elastic ) 将 日 志 记录 存 人 云 存储 。 

1. 在 entrylog 集合 中 创建 一 个 条 目 文 档 

我 们 将 在 数据 库 的 entrylog 集合 中 创建 条 目 文档 。HTTP PosT 请 求 用 于 创建 新 数据 项 。201 
created 响应 将 表明 数据 库 创 建 了 新 的 事件 。 

为 了 使 用 orchestrate.io 数据 库 服务 , 每 个 请 求 都 有 一 个 基础 URL。 基础 URL 的 定义 方法 如 
下 所 示 : 


service = "https://api.orchestrate.io" 


该 URL 使 用 了 https 方案 ， 因 此 使 用 安全 套 接 层 ( secure socket layer，SSL ) 来 确保 数据 在 客户 
端 和 服务 器 之 间 是 私密 的 。 主 机 名 为 api .orchestrate.io。 每 个 请 求 都 将 具有 基于 该 基本 服务 定 
义 的 URL。 

请 求 的 HTTP 首部 如 下 所 示 : 



















































































headers = { 
'Accept': 'application/json', 
'Content-Type': 'application/json', 


'Authorization': basic header (api_key, '') 


} 


Accept 首部 说 明了 预期 的 响应 种 类 。content -Type 首部 说 明了 请 求 体 正在 使 用 哪 一 种 文档 表 
示 。 这 两 个 首部 表明 数据 库 以 JSON 形式 表示 对 象 状态 。 

Authorization 首部 说 明了 API 密 钥 的 发 送 方式 。 该 首部 的 值 是 一 个 非常 复杂 的 字符 串 。 构 建 
经 过 编码 的 API 密 钥 字 符 串 代码 非常 容易 ， 如 下 所 示 : 


import base64 

def pbasic_ header (username, password): 

combined bytes = (username + ':' + password) .encode('utf-8') 
encoded_ bytes = base64.b64encode (combined_ bytes) 

return 'Basic ' + encoded bytes.decode('ascii') 


这 段 代码 将 用 户 名 和 密码 组 合 为 一 个 字符 串 ， 然 后 使 用 UTF-8 编码 方案 将 字符 串 编码 为 一 个 字 
节 流 。base64 模块 创建 第 二 个 字 节 流 。 在 第 二 个 输出 流 中 , 4 字 节 将 包含 3 个 输入 字 节 的 位 。 字 节 是 
从 简化 字母 表 中 选择 的 。 然 后 将 该 值 与 关键 字 'Basic ' 一 起 转换 为 Unicode 字符 。 该 值 可 用 于 
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Authorization 首部 。 

通过 创建 Request 对 象 来 使 用 RESTful API 非常 容易 。Request 类 定义 在 urllib.request 模 
块 中 。Request 对 象 组 合 了 数据 、URL 和 首部 ， 并 命名 了 一 个 特定 的 HTTP 方 法。 下面 是 创建 一 个 
Request 实例 的 代码 : 

















data_document = { 
"Emestamo: 20016-0615T17 97334 TL9 
"levelname": "INFO", 
"module": "ch09_r10", 
"message": "Sample Message One" 


} 


headers={ 
'Accept': 'application/json', 
'Content-Type': 'application/json', 
'Authorization': basic header(api key, '') 


} 


request = urllib.request.Request( 

url=service + '/v0O/eventlog', 

headers=headers, 

method='POST', 

data=json.dumps (data_document) .encode('utf-8') 
) 


request 对 象 包括 4 个 元 素 。 
口 url 参数 的 值 等 于 基本 服务 URL 加 上 集合 的 名 称 /v0/eventlog。 路 径 中 的 v0 是 每 个 请 求 必 
须 提 供 的 版 本 信息 。 
口 neagders 参数 包含 authorization 首部 ， 后 者 包含 授权 访问 应 用 程序 的 API 密 钥 。 
口 PosT 方法 将 在 数据 库 中 创建 一 个 新 对 象 。 
口 data 参数 是 需要 保存 的 文档 。 我 们 已 将 Python 对 象 转换 为 JSON 标记 形式 的 字符 串 。 然 后 使 
用 UTF-8 编码 将 Unicode 字符 编码 为 字 节 。 
2. 一 个 典型 的 响应 
处 理 过 程 包括 发 送 请 求 和 接收 响应 。urlopen () 函数 接受 Request 对 象 作 为 参数 ， 构 建 发 送 到 
数据 库 服务 器 的 请 求 。 数 据 库 服务 器 的 响应 包括 3 个 元 素 。 
口 状态 。 状 态 包括 一 个 数字 代码 和 一 个 原因 字符 串 。 创 建文 档 时 ， 预 期 的 响应 代码 为 201， 字 
符 串 为 cREATED。 对 于 许多 其 他 请 求 ， 代 码 为 200， 字 符 串 为 OK。 
口 响应 也 具有 首部 。 对 于 一 个 创建 请 求 ， 响 应 首部 包括 以 下 内 容 : 









































































































































'Location', '/v0O/eventlog/12950a87ef024e43/refs/8e50b6bfc50b2dfa'), 


ee 'application/json'), 
'"8e50b6bfc50b2dfa"'), 
Content-Type 首部 表明 内 容 以 JSON 形式 编码 ,Location 首部 提供 了 可 用 于 检索 创建 对 象 
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的 URL。ETag 首部 是 对 象 当 前 状态 的 散 列 摘要 , 有 助 于 缓存 一 个 对 象 的 本 地 副本 。 可 能 还 存 
在 其 他 首部 ， 在 示例 中 显示 为 ...。 

口 响应 可 能 有 一 个 响应 体 。 如果 存 在 响应 体 , 那么 它 将 是 一 个 从 数据 库 检 索 得 到 的 JSON 编码 文 
档 (或 多 个 文档 )。 响 应 体 必须 使 用 响应 的 read() 方 法 读 取 。 响 应 体 可 能 非常 大 ， 
Content-Length 首部 提供 了 响应 体 的 确切 字 节 数 。 

3. 用 于 数据 库 访问 的 客户 端 类 

我 们 将 定义 一 个 简单 的 类 用 于 数据 库 访问 。 一 个 类 可 以 为 多 个 相关 的 操作 提供 上 下 文 和 状态 信 

息 。 当 使 用 Elastic 数据 库 时 ， 访 问 类 可 以 只 创建 一 次 请 求 头 字典 ， 然 后 在 多 个 请 求 中 重用 。 
下 面 将 分 几 部 分 展示 一 个 数据 库 客 户 端 类 的 框架 。 首 先 ， 编 写 整 体 的 类 定义 。 


class ElasticClient: 
service = "https://api.orchestrate.io" 


上 述 代码 定义 了 一 个 类 级 的 变量 service， 值 为 协议 方案 和 主机 名 。 初 始 化 方法 __init__() 
可 以 构建 各 种 数据 库 操作 使 用 的 首部 。 
def _ init_ (self，api_key，Ppassword=' ') : 
self.headers = { 
'Accept': 'application/json', 


'Content-Type': 'application/json', 
'Authorization': ElasticClient.basic header (api_key, password), 


















































































































































} 
该 方法 获取 API 密 钥 并 创建 一 组 依赖 于 HTTP 基本 身份 验证 的 首部 。 虽 然 orchestrate 服务 并 不 使 
用 密码 ， 但 是 我 们 还 是 将 其 包含 在 内 ， 因 为 示例 单元 测试 用 例 使 用 了 用 户 名 和 密码 。 
身份 验证 服务 如 下 所 示 : 


@staticmethod 
def basic_ header (username, password=''): 























>>> ElasticClient.basic header('Aladdin', 'OpenSesame') 
'Basic QWxhZGRpbjpPPCGVUU2VZYW11' 


combined bytes = (username + ':' + password) .encode('utf-8') 
encoded_ bytes = base64.b64encode (combined bytes) 
return 'Basic ' + encoded bytes.decode('ascii') 


该 函数 可 以 组 合用 户 名 和 密码 来 创建 用 于 HTTP Authorization 首部 的 值 。orchestrate. Io 
API 使 用 一 个 事先 分 配 好 的 API 密 钥 作为 用 户 名 ， 密 码 是 一 个 零 长 度 的 字符 串 '' 。 当 有 人 注册 
orchestrate.io 服务 时 ，orchestrate.io 就 会 为 其 分 配 API 密 钥 。 免 费 的 orchestrate.io 服 
务 允 许 数量 合理 的 事务 和 一 个 充裕 的 小 数据 库 。 

我 们 以 文档 字符 串 的 形式 添加 了 一 个 单元 测试 用 例 ， 用 于 验证 结果 是 否 正确 。 该 测试 用 例 源 自 
HTTP 基本 身份 验证 (HTTP basic authentication ) 的 维基 百科 页 症 

最 后 一 部 分 是 一 个 方法 ， 将 数据 项 加 载 到 数据 库 的 event1og 集合 。 


def load_eventlog(self, data document): 
request = urllib.request.Request( 
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url=self.service + '/v0O/eventlog', 
headers=self.headers, 

method='POST', 

data=json.dumps (data_document) .encode('utf-8') 


) 


with urllib.request.urlopen(request) as response: 
assert response.status == 201, "Insertion Error" 
response_headers = dict (response.getheaders()) 
return response_ headers['Location'] 


该 函数 使 用 完整 的 URL、HTTP 首部 、 方 法 字符 串 和 已 编码 的 数据 这 4 个 必要 信息 来 构建 一 个 
Reques 对 象 。 在 本 例 中 ， 数 据 首 先 被 编码 为 一 个 JSON 字符 串 ， 然 后 使 用 UTF-8 编码 方案 将 JSON 
字符 串 编码 为 字 节 。 

执行 urlopen () 函数 将 发 送 请 求 并 返回 一 个 响应 对 象 。 该 对 象 被 用 作 上 下 文 管理 带 。 即 使 在 响 
应 处 理 期 间 抛 出 异常 ，with 语句 也 可 以 确保 资源 正确 释放 。 

POST 方法 的 响应 状态 应 该 是 201， 其 他 任何 状态 都 是 有 问题 的 。 在 这 段 代 码 中 , 使 用 assert 
语句 来 检查 状态 。 提 供 一 个 像 Expected 201 status, got {}.format (response.status) 这 样 
的 消息 可 能 会 更 好 。 

最 后 检查 首部 , 以 获取 Location 首部 。Location 首部 提供 了 一 个 用 于 查找 所 创建 对 象 的 URL 
片段 。 






































































































































11.9.2 ”实战 演练 


(1) 创建 数据 库 访 问 模块 。 该 模块 包含 Blasticclient 类 定义 ,另外 还 包含 该 类 所 需 的 其 他 定义 。 

(2) 本 实例 将 使 用 unittest 和 doctest 创建 一 个 综合 测试 套件 ， 还 需要 使 用 unittest .mock 
的 Mock 类 以 及 json 包 。 由 于 该 模块 独立 于 被 测 单元 ,因此 需要 导入 包含 待 测试 类 定义 的 ch11_r08_ 
load 模块 。 


import unittest 

from unittest.mock import * 
import doctest 

import json 

import ch11_r08_1oad 


(3) 创建 测试 用 例 的 整体 框架 。 我 们 将 填充 下 面 测试 的 setUp() 方 法 和 runTest () 方 法 。 该 测试 
的 名 称 说 明 测试 给 定 了 一 个 实例 Elasticclient， 当 调用 loadq_eventlog() 时 ， 就 发 出 了 一 个 适 
当 的 RESTful API 请 求 。 


class GIVEN_ElasticClient_ WHEN_load eventlog_THEN_ request (unittest .TestCase) : 







































































def setUp(self): 


def runTest (self): 


(4) setUp () 方 法 的 第 一 部 分 是 一 个 模拟 上 下 文 管理 器 ， 提 供与 urlopen () 函数 类 似 的 响应 。 
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def setUp(self): 
# 上 下 文 管理 器 对 象 本 身 
self.mock_ context = Mock( 
_ exit_ = Mock(return value=None), 
enter_ _ = Mock( 
side_effect = self.create response 
) ， 
) 
# 返回 一 个 上 下 文 的 urlopen() 函 数 
self.mock urlopen = Mock( 
return value = self.mock_ context, 
) 
当 调 用 urlopen () 时 ,返回 值 是 一 个 行为 类 似 于 上 下 文 管理 器 的 响应 对 象 。 模 拟 该 对 象 的 最 好 








方法 是 返回 一 个 模拟 上 下 文 管理 器 。 模 拟 上 下 文 管理 器 的 __enter__() 方 法 用 于 实际 创建 响应 对 象 。 














在 本 例 中 ，side_effect 属性 标识 了 一 个 辅助 函数 ， | 用 __ent 











A() 沪 法 





的 结果 。self .create_response 还 没有 定义 ,我 们 将 在 随后 的 步 又 中 定义 。 
(5) setUp () 方 法 的 第 二 部 分 是 一 些 待 加 载 的 模拟 数据 。 











# 测试 文档 
self.document = { 
"timestamp": "2016-06-15T17:57:54.715", 
"Jevelname": "INFO", 
"module": "ch09_r10", 
"message": "Sample Message One" 


} 
在 更 复杂 的 测试 中 ,我们 可 能 想 要 模拟 一 个 大 型 的 、 可 迭代 的 文档 集合 。 





0 response () 辅助 方法 构建 类 似 响应 的 对 象 。 响 应 对 象 可 能 很 复杂 ， 因 此 我 们 定义 了 





函数 来 创建 它们 。 


def create_response (self): 
self.database_ id = hex(hash(self.mock urlopen.call args{[0] [0] .data)) 
self.location = '/v0O/eventlog/{id}'.format (id=self.database_id) 
response_ headers = |[ 
('Location', self.location), 
('ETag', self.database_id), 
('Content-Type', 'application/json'), 
] 
return Mock ( 
总 蕊 或 臣 让 让 * 芭 、 区 人 下 和 
getheaders = Mock(return value=response_headers) 
) 


该 方法 使 用 self .mock_urlopen.call_args 检查 对 该 Mock 对 象 的 最 后 一 次 调用 








[2:] 


。 这 个 调用 


的 参数 是 一 个 由 位 置 参 数值 和 关键 字 参 数组 成 的 元 组 。 第 一 个 [0] 索 引 从 元 组 中 选择 位 置 参 数值 。 第 























二 个 [0] 索 引 选择 第 一 个 位 置 参数 值 。 得 到 的 结果 是 即将 加 载 到 数据 库 的 对 象 。hex () 
个 字符 串 ， 包 含 我 们 丢弃 的 0x 前 级 。 
在 更 复杂 的 测试 中 ， 该 方法 可 能 需要 保存 加 载 到 数据 库 中 的 对 象 的 缓存 ， 以 便 更 准 胡 






































函数 的 值 是 一 


地 模拟 数据 
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库 式 的 响应 。 





(7) runTest () 方 法 对 被 测 模块 打 补 丁 。 该 方法 定位 了 从 ch11_r08_load 到 urllib.request 


再 到 urlopen () 函数 的 引用 ， 然 后 将 其 替换 为 mock_urlopen。 


def runTest (self): 


with patch('ch11_r08_load.urllib.request.urlopen', self.mock urlopen): 


client = chill _r08_load.ElasticClient ('Aladdin', 'OpenSesame') 
response = client.load eventlog(self.document) 


self.assertEqual (self.location, response) 


Call_request = self.mock urlopen.call _ args{[0][0] 
self.assertEquall( 

'https://api.orchestrate.io/v0O/eventlog', call_ request.full url) 
self.assertDictEquall( 


{'Accept': 'application/json', 
'Authorization': 'Basic QWxhZGRpbjpPcGVuUU2VZYW11', 
'Content-type': 'application/json' 


js 
call_request .headers) 
self.assertEqual('POST', call_request .method) 
self.assertEquall( 
json.dumps (self.document) .encode('utf-8'), call_request.data) 


self.mock_ context._ enter .assert_called once with() 
self.mock_ context._ exit__.assert_called_ once with(None, None, None) 














该 测试 遵循 Blasticclient 首先 创建 client 对 象 的 要 求 。 它 没有 使 用 实际 的 API 密 钥 ， 而 是 
使 用 了 用 户 名 和 密码 ， 这 将 为 Authorization 首部 创建 一 个 已 知 的 值 。loaa_eventlog() 的 


























是 一 个 类 似 响 应 的 对 象 ， 可 以 检查 它 以 确定 是 否 具有 正确 的 值 。 


























结果 





所 有 交互 将 通过 模拟 对 象 来 完成 。 可 以 使 用 各 种 断言 来 确认 是 否 创建 了 正确 的 请 求 对 象 。 该 测试 






































检查 了 请 求 对象 的 4 个 属性 ， 以 及 是 否 正确 使 用 了 上 下 文 。 





(8) 还 要 定义 1oad_tests () 卫 数 。 该 函数 将 组 合 unittest 套件 与 ch11_r08_1load 模块 文档 


字符 串 中 的 测试 示例 。 


def load_ tests(loader, standard tests, pattern): 
dt = qoctest.DocTestSuite (ch11_r08_1oad) 
standard_tests.addTests (dt) 
return standard tests 











(9) 最 后 提供 运行 完整 套件 的 主 程序 。 下 面 的 代码 可 以 轻松 地 将 测试 模块 作为 独立 脚本 运行 。 





i name SE i 
unittest.main() 





11.9.3 ”工作 原理 

















本 实例 通过 组 合 许多 unittest 特性 和 doctest 特性 ， 创 建 了 一 个 复杂 的 测试 用 例 。 本 实例 使 

















用 了 以 下 特性 。 
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口 创建 上 下 文 管理 器 。 
口 使 用 sige-effect 特性 创建 动态 的 、 有 状态 的 测试 。 
口 模拟 复杂 的 对 象 。 
口 使 用 测试 加 载 协议 组 合 doctest 和 unittest 用 例 。 
下 面 将 分 别 讨论 这 些 特性 。 
1. 创建 上 下 文 管理 器 
上 下 文 管理 器 协议 在 一 个 附加 的 间接 层 中 包装 对 象 。 更 多 相关 信息 请 参阅 9.3 节 和 9.12 节 。 
__enter _() 方 法 和 __exit__() 方 法 是 必须 模拟 的 核心 功能 。 
模拟 上 下 文 管理 器 的 模式 如 下 所 示 : 


self.mock_ context = MocK( 
_ exit_ = Mock(return value=None), 
__enter _ = Mock( 
side_effect = self.create response 
# 或 者 


# return value = some_ value 












































) ， 
) 


上 下 文 管理 器 对 象 有 两 个 属性 。__exit__“() 将 被 调用 一 次 。 返 回 值 True 将 静默 所 有 异常 ， 返 
回 值 None 或 False 人 允许 异常 传播 。 

__enter _() 方 法 返回 赋 给 witn 语句 的 对 象 。 为 了 便于 计算 动态 结果 ， 本 实例 中 使 用 了 
side_effect 属性 并 提供 了 一 个 函数 。 

__enter _() 方 法 的 一 种 常见 将 代 方 法 是 使 用 固定 的 return_value 属性 ， 并 且 每 次 提供 相同 
的 管理 器 对 象 。 我 们 也 可 以 用 side_effect 提供 一 个 序列 ， 在 这 种 情况 下 ， 每 次 调用 该 方法 时 ， 都 
会 返回 序列 中 的 另 一 个 对 象 。 

2. 创建 动态 的 、 有 状态 的 测试 

在 许多 情况 下 ,测试 可 以 使 用 一 组 静态 的 固定 对 象 。 可 以 在 setUp () 方 法 中 定义 模拟 响应 。 然 而 
在 某 些 情况 下 ， 对 象 的 状态 可 能 需要 在 复杂 测试 的 操作 期 间 更 改 。 在 这 种 情况 下 ，Mock 对 象 的 
side_effect 属性 可 以 用 来 跟踪 状态 变化 。 

在 本 实例 中 , sigqe_effect 属性 使 用 create_response() 方法 来 构建 动态 响应 。 side_effect 
引用 的 函数 可 以 执行 各 种 操作 ， 比 如 更 新 用 于 计算 复杂 响应 的 动态 状态 信息 。 

对 于 测试 用 例 的 复杂 程度 ， 应 当 掌 握 好 分 寸 ,， 复杂 的 测试 用 例 可 能 会 引入 自身 的 错误 。 保 持 测试 
用 例 尽 可 能 简单 是 一 个 好 主意 ， 可 以 避免 编写 元 测试 ( meta test ) 来 测试 用 例 。 

对 于 意义 重大 的 测试 ， 确 保 测试 可 以 失败 非常 重要 。 某 些 测 试 涉及 无 意义 的 袭 述 ， 有 可 能 故意 创 
建 一 个 像 self .assertEqual (4，2+2) 这 样 没有 意义 的 测试 。 为 了 确保 测试 使 用 被 测 单元 ， 当 出 现 
代码 丢失 或 注入 错误 时 ， 测 试 将 失败 。 

3. 模拟 复杂 的 对 象 

来 自 urlopen () 的 响应 对 象 具 有 大 量 的 属性 和 方法 。 对 于 我 们 的 单元 测试 ， 只 需要 设置 其 中 的 


一 些 特性 。 
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使 用 方法 如 下 所 示 : 


return Mock( 

status = 201, 

getheaders = Mock(return value=response_ headers) 
) 


上 述 代 码 创 建 了 一 个 具有 两 个 属性 的 Mock 对 象 。 
口 status 属性 具有 简单 的 数值 。 
口 getheaders 属性 使 用 具有 return_value 属性 的 Mock 对 象 来 创建 一 个 方法 函数 。 该 方法 
函数 返回 动态 response_headers 值 。 
response_headers 值 是 具有 ( 键 , 值 ) 对 的 二 元 组 序列 。 响 应 类 首部 的 这 种 表示 可 以 非常 容易 地 
转换 为 字典 。 
对 象 的 构建 方式 如 下 所 示 : 


response_heaqers = [ 
('Location', self.location), 
('ETag', self.database_id), 
('Content-Type', 'application/json'), 

































































] 

上 述 代 码 将 设置 3 个 首部 : Location、ETag 和 Content-Type。 可 能 还 需要 其 他 首部 ， 具体 取 
决 于 测试 用 例 。 重要 的 是 不 要 将 测试 用 例 与 未 使 用 的 首部 混淆 ,这 种 混淆 可 能 会 导致 测试 本 身 的 错误 。 
数据 库 的 ID 和 位 置 基 于 以 下 计算 : 
hex(hash(self.mock urlopen.call_ args[0] [0] .data)) [2:] 

上 述 计算 使 用 self .mock_urlopen.call_args 检查 提供 给 测试 用 例 的 参数 ,call_args 属性 
的 值 是 位 置 参 数值 和 关键 字 参 数值 的 一 个 二 元 组 。 位 置 参数 也 是 一 个 元 组 。 这 意味 着 call_args[0] 
是 位 置 参数 ， 而 且 call_args[0] [0] 是 第 一 个 位 置 参数 。 人 参数 的 值 是 加 载 到 数据 库 的 文档 。 

许多 Python 对 象 都 有 散 列 值 。 在 本 例 中 , 对 象 将 是 一 个 由 json .aumps () 函数 创建 的 字符 串 。 该 
字符 串 的 散 列 值 是 个 较 大 的 数 。 该 数 的 十 六 进 制 值 将 是 一 个 带 0x 前 级 的 字符 串 。 我 们 将 使 用 [2:] 切 
片 忽略 该 前 级 。 相 关 信 息 请 参阅 1.6 节 。 

4. 使 用 测试 加 载 协 议 

复杂 的 模块 将 包含 类 和 函数 定义 。 模 块 作为 一 个 整体 需要 一 个 描述 性 的 文档 字符 串 ， 每 个 类 和 函 
数 也 需要 一 个 文档 字符 串 ， 类 中 的 每 个 方法 同样 需要 一 个 文档 字符 串 。 这 些 文档 字符 串 将 提供 模块 、 
类 、 函 数 和 方法 的 基本 信息 。 

另外 ， 每 个 文档 字符 串 都 可 以 包含 一 个 示例 。 可 以 通过 doctest 模块 来 测试 这 些 示 例 。 相 关 实 
例 请 参阅 11.2 节 。 我 们 可 以 组 合 文 档 字 符 串 示例 测试 ， 而 不 需要 更 复杂 的 单元 测试 。 有 关 该 操作 的 更 
多 信息 ， 请 参阅 11.6 节 。 


































































































































































































11.9.4 ”补充 知识 
unittest 模块 也 可 以 用 于 构建 集成 测试 。 集 成 测试 的 思想 是 避免 模拟 ， 并 在 测试 模式 下 实际 使 
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用 真正 的 外 部 服务 。 这 种 方法 可 能 速度 较 慢 或 开销 较 大 。 在 所 有 单元 测试 都 说 明 软 件 可 以 正常 工作 之 
前 ， 通 常 避免 采用 集成 测试 。 

例如 ， 可 以 用 orchestrate.io 创建 两 个 应 用 程序 : 一 个 是 实际 应 用 程序 ， 另 一 个 是 测试 应 用 
程序 。 这 样 我 们 就 有 两 个 API 密 钥 。 使 用 测试 密 钥 可 以 将 数据 库 重 置 为 初始 状态 ， 同 时 不 会 为 真实 数 
据 的 实际 用 户 带 来 问题 。 

可 以 通过 unittest、setUpModule() 和 tearDownModule() 函数 控制 测试 应 用 程序 。 setUp- 
Module () 函数 在 给 定 模块 文件 的 所 有 测试 之 前 执行 。 这 是 将 数据 库 设置 为 已 知 状态 的 简便 方法 。 

还 可 以 使 用 tearDownModule() 函数 删除 数据 库 。 该 函数 可 以 方便 地 删除 由 测试 创建 的 不 需要 
的 资源 。 有 时 ， 为 了 调试 而 保留 资源 可 能 会 更 有 帮助 。 因 此 ，tearDownModule () 限 数 可 能 不 如 
setUpModule () 图 数 那 么 有 用 。 


11.9.5 “延伸 阅读 


口 11.7 节 和 11.8 节 显 示 了 本 实例 中 使 用 的 一 些 技术 。 

口 9.6 节 展 示 了 如 何 分 析 复 杂 的 日 志文 件 。9.12 节 将 复杂 的 日 志 记 录 写 人 了 CSV 文件 。 

口 有 关 通 过 切 分 字符 串 替 换 部 分 字符 串 的 信息 ， 请 参阅 1.6 节 。 

口 本 实例 中 的 元 素 可 以 通过 aoctest 模块 来 测试 ， 相关 示例 请 参阅 11.2 节 。 将 本 实例 中 的 这 些 
测试 与 doctest 组 合 起 来 也 很 重要 。 关 于 相关 操作 的 更 多 信息 ， 请 参阅 11.6 节 。 
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Web 服务 








本 章 主要 介绍 以 下 实例 。 

口 使 用 WSGI 实现 Web 服务 

口 使 用 Flask 框架 实现 RESTful API 
口 解析 请 求 中 的 查询 字符 串 

口 使 用 urllib 发 送 REST 请 求 

口 解析 URL 路 径 

口 解析 JSON 请 求 

口 实施 Web 服务 认证 






































12.1 引言 











提供 Web 服务 涉及 解决 多 个 相互 关联 的 问题 。 在 开发 过 程 中 ,必须 遵守 许多 适用 的 协议 , 每 个 协 











议 都 有 自己 独特 的 设计 考虑 。Web 服务 的 核心 是 定义 HTTP 的 各 种 标准 。 





HTTP 涉及 两 个 参与 者 : 客户 端 和 服务 需 。 

D 客户 端 向 服务 器 发 送 请 求 。 

口 服务 器 将 响应 返回 给 客户 端 。 

这 种 关系 非常 不 对 称 。 我 们 期 望 服 务 器 能 够 处 理 来 自 多 个 客户 端的 并 发 请 求 。 由 于 客户 端 请 求 异 


















































步 到 达 , 因此 服务 器 无 法 轻易 区 分 这 些 请 求 是 否 源 自 单个 用 户 。 用 户 会 话 是 通过 设计 提供 会 话 令 牌 (或 
cookie ) 的 服务 器 以 跟踪 用 户 的 当前 状态 来 实现 的 。 


注 



































HTTP 协议 灵活 且 可 扩展 。 以 网 页 形式 提供 内 容 是 HTTP 协议 的 一 种 流行 的 应 用 案例 。 网 页 通常 
码 为 HTML 文档 ， 一般 包含 图 形 、 样 式 表 和 JavaScript 代码 的 链接 。9.9 节 介 绍 了 HTML 的 解析 。 
网 页 内 容 可 以 进一步 分 解 为 两 种 内 容 。 
口 静态 内 容 本 质 上 是 可 下 载 的 文件 。 诸 如 GUnicorn、NGINGX 或 Apache HTTPD 等 程序 能 够 可 
靠 地 提供 静态 文件 。 每 个 URL 定义 了 一 个 文件 的 路 径 ， 然 后 服务 器 将 文件 下 载 到 浏览 器 。 
口 动态 内 容 是 根据 需要 由 应 用 程序 构建 的 。 本 章 将 使 用 Python 应 用 程序 构建 HTML (或 可 能 的 
图 形 ) 来 响应 请 求 。 
男 一 种 非常 受 欢迎 的 HTTP 应 用 案例 是 提供 Web 服务 。 在 这 种 情况 下 , 标准 HTTP 请 求 和 响应 将 
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以 HIML 之 外 的 格式 交换 数据 。JSON 是 最 流行 的 信息 编码 格式 之 一 。9.7 节 介绍 了 JSON 文档 处 理 。 

Web 服务 可 以 看 作 使 用 HITP 提供 动态 内 容 的 一 个 变 体 。 客 户 端 可 以 提供 JSON 格式 的 文档 ， 服 
务 器 上 的 Python 应 用 程序 同样 以 JSON 格式 创建 响应 文档 。 

在 某 些 情况 下 ，Web 服务 的 重点 非常 突出 。 比 如 ， 可 以 将 服务 和 数据 库 持 久 化 捆绑 到 一 个 包 中 。 
这 个 过 程 可 能 涉及 创建 一 个 服务 器 ， 这 个 服务 器 具有 一 个 基于 NGINX 的 Web 界面 ， 以 及 一 个 使 用 
MongoDB 或 Elastic 的 数据 库 。 整 个 包 ( 即 Web 服务 加 持久 化 ) 也 可 以 称 为 微服 务 ( microservice )。 

Web 服务 交换 的 文档 为 对 象 的 状态 信息 编码 。 用 JavaScript 开发 的 客户 端 应 用 程序 可 能 具有 需要 
发 送 到 服务 器 的 对 象 状 态 。 用 Python 开发 的 服务 器 应 用 程序 可 能 会 将 对 象 状 态 的 表示 形式 转移 给 客户 
端 。 这 种 设计 方案 叫 作 资源 表现 层 状 态 转化 ( representational state transfer，REST )。 使 用 REST 处 理 
的 服务 通常 称 为 RESTful。 

为 HTML 或 JSON 处 理 HTTP 的 过 程 可 以 设计 为 许多 转换 函数 。 思 路 如 下 : 

response = F(request, persistent state) 

响应 由 F(z，s ) 函数 的 请 求 构建 ,F (r，s) 函数 依赖 于 请 求 以 及 服务 器 数据 库 中 的 某 些 持久 状态 。 

这 些 函 数 在 核心 服务 周围 形成 能 套 的 外 壳 〈shell ) 或 包装 器 (wrapper )。 例 如 ， 核 心 处 理 可 以 用 
附加 步骤 包装 ， 以 确保 发 出 请 求 的 用 户 被 授权 改变 数据 库 状 态 。 总 结 如 下 : 

response = auth(F(request, persistent state)) 

授权 处 理 可 以 包装 在 用 户 认证 处 理 中 。 所 有 这 些 处 理 可 以 进一步 包装 在 一 个 shell 中 , 确保 客户 端 
应 用 程序 软件 接受 JSON 格式 的 响应 ,使 用 这 种 多 层 结构 可 以 为 许多 不 同 的 核心 服务 提供 一 致 的 操作 。 
整个 过 程 如 下 : 

response = JSON( user( auth( F(request, persistent state) ) ) ) 

这 种 设计 自然 适合 于 一 系列 转换 函数 ， 也 为 设计 复杂 的 Web 服务 提供 了 一 些 指 导 。 复 杂 的 Web 
服务 包含 许多 协议 和 创建 有 效 响应 的 规则 。 

优秀 的 RESTful 实 现 应 当 提供 大 量 有 关 该 服务 的 信息 。 提 供 信息 的 一 种 方法 是 使 用 OpenAPI 规 范 。 
有 关 OpenAPI (Swagger ) 规范 的 信息 ， 请 参阅 http://swagger.io/specification/。 

OpenAPI 规 范 的 核心 是 JSON 模式 规范 。 更 多 相关 信息 ， 请 参阅 http://json-schema.org。 

使 用 规范 的 两 种 基本 思路 如 下 。 

(1) 用 JSON 格式 为 发 送 到 服务 的 请 求 和 服务 提供 的 响应 编写 规范 。 

(2) 以 固定 的 URL 提供 规范 ，URL 通常 为 /swaggerjson。 客 户 端 可 以 查询 该 规范 来 确定 服务 工作 
原理 的 细节 。 

创建 Swagger 文档 可 能 有 点 挑战 性 。swagger-spec-validator 可 以 提供 一 些 帮助 ， 请 参阅 
https://pypi.python.org/pypi/swagger-spec-validator。 swagger-spec-validator 是 一 个 Python 包 ， 可 
以 用 来 确认 Swagger 规范 是 否 符合 OpenAPI 要 求 。 

本 章 将 介绍 一 些 创 建 RESTful Web 服务 并 提供 静态 或 动态 内 容 的 实例 。 
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12.2 ”使 用 WSGI 实现 We 











b 服务 


许多 Web 应 用 程序 会 有 多 个 层次 。 这 些 层次 通常 可 以 总 结 为 3 种 常见 模式 。 

















口 应 用 层 通常 作为 Web 服务 实现 。 




















口 表示 层 可 能 会 在 移动 设备 或 网 站 上 运行 。 该 层 是 可 见 的 外 部 视图 。 





该 层 对 网 页 或 移动 表示 进行 处 理 。 




















口 持久 层 负 责 保 留 单 个 会 话 以 及 单个 用 户 的 多 个 会 话 中 的 数据 和 事务 状态 。 该 层 将 支持 应 用 层 。 
基于 Python 的 网 站 或 Web 服务 应 用 程序 将 遵循 Web 服务 器 网 关 接 口 ( Web server gateway 


interface，WSGI ) 标准 。 该 标准 使 前 端 Web 服务 器 ( 比如 Apache HTTPD、NGINX 或 GUnicom ) 能 

















够 统一 使 用 Python 提供 动态 内 容 。 
































Python 的 RESTful API 框架 种 类 繁多 ，12.3 节 将 介绍 Flask 框架 。 但 是 ， 在 某 些 情 况 下 ，WSGI 


的 核心 功能 就 能 满足 我 们 的 需求 。 





如 何 根据 WSGI 标准 创建 支持 分 层 结构 的 应 用 程序 ? 


12.2.1 准备 工作 























WSGI 标 准 定义 了 可 组 合 的 Web 应 用 程序 的 总 体 框架 。 该 标准 的 思想 是 分 别 定 义 每 个 应 用 程序 ， 
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以 便 其 独立 存在 ， 并 且 可 以 与 其 他 应 用 种 























序 连 接 。 整 个 网 站 由 一 组 外 壳 或 包装 器 构成 。 


这 是 一 种 Web 服务 器 开发 的 简便 方法 。WSGI 不 是 一 个 复杂 的 框架 ， 它 只 是 一 个 极 简 的 标准 。 我 
们 将 使 用 12.3 节 中 的 一 个 更 好 的 框架 来 研究 一 些 简 化 设计 的 方法 。 
Web 服务 的 本 质 是 HTTP 请 求 和 响应 。 服 务 器 接收 来 自 客户 端的 请 求 并 创建 响应 。HTTP 请 求 由 














多 部 分 内 容 组 成 。 





口 资源 的 URL: URL 可 以 像 http:/www.example.com:8080/?query#fragment 一 样 复杂 。 一 个 URL 


包括 以 下 几 个 部 分 。 
四 协议 http : 协议 以 :结尾 。 


四 主机 www.example.com: 以 // 为 前 级 ， 包 括 一 个 可 选 的 端口 号 。 在 本 例 中 ， 











口号 为 8080。 











和 资源 的 路 径 : 在 本 例 中 ,资源 的 路 径 为 /符号 。 路 径 在 某 种 形式 上 是 必需 的 ， 往 往 比 一 个 简 


单 的 /更 复杂 。 


里 以 ?为 前 绥 的 查询 字符 串 : 在 本 例 中 ,查询 字符 串 只 是 没有 值 的 键 query。 











量 以 # 为 前 缀 的 片段 标识 符 : 在 本 例 中 ， 片 段 为 fragment。 对 于 HTML 文档 ， 片 段 可 以 是 特 
定 标签 的 id 值 ， 浏 览 器 将 滚动 到 指定 的 标签 。 





几乎 所 有 URL 元 素 都 是 可 选 的。 我 们 可 以 利 


格式 信息 。 


WSGI 标准 要 求 URL 已 经 解析 过 。URL 的 各 部 分 装 和 人 环境 后 ， 每 个 部 分 都 ) 





的 键 。 
口 方法 : 常见 的 HTTP 方法 包括 H 






































EAD、 OPTIONS、GET、POST、PUT 和 DELE 


口 请 求 首部 : 首部 是 支持 请 求 的 附加 信息 。 例 如 ， 首 部 用 于 定义 可 以 接受 的 内 容 的 种 类 。 














TE 





用 查询 字符 串 ( 或 片段 ) 提供 有 关 请 求 的 其 他 





各 分配 一 个 单独 
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口 附加 内 容 : 请 求 可 能 包括 HTML 表单 的 输入 或 者 待 上 传 的 文件 。 

HTTP 响应 在 许多 方面 与 请 求 类 似 。 响 应 包含 响应 首部 和 响应 体 ， 响 应 首部 包含 像 内 容 编 码 这 样 
的 细节 信息 ， 以 便 客户 端 可 以 正确 泻 染 。 如 果 服 务 器 正在 提供 HTML 内容 并 且 正 在 保持 服务 器 会 话 ， 
那么 cookie 将 作为 每 个 请 求 和 响应 的 一 部 分 发 送 到 首部 中 。 

WSGI 旨 在 帮助 创建 应 用 程序 组 件 ， 这 些 组 件 可 用 于 构建 更 大 、 更 复杂 的 应 用 程序 。WSGI 应 用 
程序 通常 作为 包装 器 ,将 其 他 应 用 程序 与 非法 请 求 、 未 经 授权 的 用 户 或 未 经 身份 验证 的 用 户 隔离 。 为 
此 , 每 个 WSGI 应 用 程序 都 必须 遵循 通用 的 标准 定义 。 每 个 应 用 程序 必须 是 一 个 函数 或 一 个 可 调用 对 
象 ， 具 有 以 下 签名 : 


def application(environ, start_response): 
start_response('200 OK', [('Content-Type', 'text/plain')]) 
return iterable_ strings 


environ 参数 是 包含 请 求 信息 的 字典 , 它 包含 所 有 HTTP 细节 、 操 作 系统 上 下 文 以 及 WSGI 服务 
器 上 下 文 start_response 参数 是 在 返回 响应 体 之 前 必须 调用 的 函数 , 它 提 供 了 响应 的 状态 和 首部 。 

WSGI 应 用 程序 函数 的 返回 值 是 HTTP 响应 体 ， 通常 是 字符 串 序列 或 可 迭代 的 字符 串 。WSGI 应 
用 程序 可 能 是 更 大 的 容器 的 一 部 分 ， 它 可 能 会 在 构建 响应 时 ， 将 响应 从 服务 器 分 发 到 客户 端 。 

由 于 所 有 WSGI 应 用 程序 都 是 可 调用 的 函数 , 因此 它们 可 以 轻松 组 合 。 一 个 复杂 的 Web 服务 器 可 
能 有 多 个 WSGI 组件， 它们 负责 处理 认证 、 授 权 、 标 准 头 文件 、 审 计 日 志 、 性 能 监控 等 细节 。 这 些 组 
件 通 常 独立 于 底层 内 容 ， 它 们 是 所 有 Web 应 用 程序 或 RESTful 服务 的 通用 功能 。 

本 节 将 介绍 一 个 相对 简单 的 Web 服务 ， 该 服务 将 从 一 副 牌 (deck ) 或 牌 盒 ( shoe ) 分 发 纸牌 。 我 
们 将 依赖 6.5 节 中 的 cara 类 定义 。 具 有 牌 面 大 小 (rank ) 和 花色 (suit ) 信息 的 核心 card 类 如 下 
所 示 : 


class Card: 
-Slots ("rank J Sulit) 
def _ init__ (self, rank, suit): 
self.rank = int (rank) 
self.suit = suit 
def _ repr_ _(self): 
return ("Card(rank={self.rank!r}, " 



































































































































































































































"suit={self.suit!r})").format (self=self) 
def to_ jsonl(self): 
return { 
3 Glass "% "Card”, 


'rank': self.rank, 
'suit': self.suit} 


我 们 为 纸牌 定义 了 一 个 基 类 。 该 类 的 每 个 实例 有 两 个 属性 : rank 和 suit。 我 们 省 略 了 散 列 和 比 
较 方法 的 定义 。 根 据 7.7 节 ， 该 类 还 需要 一 些 特殊 方法 。 本 实例 将 暂时 回避 这 些 难 题 。 

我 们 定义 了 to_json() 方 法 , 将 复杂 对 象 序列 化 为 一 致 的 JSON 格式 。 该 方法 返回 一 个 用 字典 表 0 
示 card 的 状态 。 如 果 要 从 JSON 标记 反 序 列 化 cara 对 象 , 那 么 还 需要 创建 一 个 object_hook 函数 。 
不 过 ， 本 实例 不 需要 这 个 函数 ， 因 为 我 们 不 会 接受 card 对 象 作 为 输入 。 

我 们 还 需要 一 个 Deck 类 作为 cara 实例 的 容器 。Deck 类 的 实例 可 以 创建 cara 实例 ， 并 充当 可 
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处 理 纸牌 的 有 状态 对 象 。Deck 类 的 定义 如 下 所 示 : 


import random 
class Deck: 
SUITS Sr 坟 
'\N{black spade suit}', 
'\N{white heart suit}', 
'\N{white diamongd suit}', 
'\N{black club suit}', 
) 


def _ init. ‘(self,;, n=1):; 
self.n = n 
self.create_ deck (self.n) 


def create deck(self, n=1): 
self.cards = [ 
Card (r,s) 
for r in range(1,14) 
for s in self.SUITS 
for _ in range(n) 
] 
random.shuffle(self.cards) 
self.offset = 0 


def deal (self, hangd_ size=5): 
if self.offset + hangd size > lenl(self.cards): 
self.create_ deck (self.n) 
hand = self.cards[self.offset:self.offset+hand_size] 
self.offset += hangd_size 
return hand 


create_deck() 方 法 使 用 生成 器 创建 13 种 牌 面 大 小 和 4 种 花色 的 所 有 52 种 排列 。 每 种 花色 由 单 
一 的 符号 定义 ， 符 号 为 &、O 、9 或 4。 该 示例 使 用 \N{ 1) 序列 说 明 Unicode 字符 名 称 。 

如 果 在 创建 Deck 实例 时 提供 了 一 个 n 值 , 那么 容器 将 创建 每 副 有 52 张 牌 的 多 副 牌 。 这 种 包含 多 
副 牌 的 牌 盒 有 时 可 以 通过 减少 洗 牌 时 间 来 加 快 游戏 速度 。 一 旦 cara 实例 序列 被 创建 ， 就 会 使 用 
random 模块 洗 牌 。 对 于 可 重复 的 测试 用 例 ， 可 以 提供 固定 的 种 子 。 

deal () 方 法 将 使 用 self.offset 值 来 确定 处 理 开 始 的 位 置 。 该 值 从 0 开始 , 当 每 手 牌 处 理 完 之 
后 递增 。 nang_size 参数 决定 了 下 一 手 牌 将 会 有 多 少 张 牌 。 该 方法 通过 增加 self .offset 值 来 更 新 
对 象 的 状态 ， 这 样 纸牌 只 被 处 理 一 次 。 

下 面 是 使 用 该 类 创建 card 对 象 的 一 种 方法 : 


>>> from ch12_r01 import deck factory 
>>> import random 
>>> import json 
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>>> random.seed(2) 

>>> deck = Deck() 

>>> cards = deck.deal(5) 
>>> cards 
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[Card(rank=4, suit=''), Card(rank=8, suit='9'), 
Card(rank=3, suit='Y9'), Card(rank=6, suit='9'), 
Card(rank=2, suit='%')] 


为 了 创建 合理 的 测试 ， 我 们 提供 了 固定 的 种 子 值 。 该 脚本 使 用 Deck () 创建 了 一 副 牌 。 然 后 ， 就 
可 以 处 理由 这 副 牌 中 的 5 个 cara 实例 组 成 的 一 手 牌 了 。 
为 了 将 其 作为 Web 服务 的 一 部 分 ， 还 需要 以 JSON 格式 生成 有 用 的 输出 。 示 例如 下 : 


>>> json cards = list(card.to json() for card in deck.deal(5)) 
>>> print(json.dumps (json cards, indent=2, sort keys=True)) 
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} 
] 


我 们 使 用 deck.qdeal (5) 发 出 了 由 一 副 牌 中 的 5 张 牌 组 成 的 一 手 牌 。 表 达 式 list (card.to_ 
json() for card in deck.deal(5) ) 将 使 用 每 个 card 对 象 的 to_json () 方 法 生成 该 对 象 的 字典 
表示 , 字典 结构 的 列表 随后 序列 化 为 JSON 标记 。sort_keys=True 选项 便于 创建 可 重复 的 测试 用 例 。 
这 对 于 RESTful Web 服务 通常 不 是 必需 的 。 


















































12.2.2 ”实战 演练 


(1) 导入 所 需 的 模块 和 对 象 。 我 们 将 使 用 HTTPStatus 类 ， 因 为 它 定 义 了 常用 的 HTTP 状态 码 。 
json 模块 用 于 生成 JSON 响应 。 还 需要 使 用 os 模块 初始 化 随机 数字 种 子 。 [ 

from http import HTTPStatus 

import json 


import os 
import random 
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(2) 导入 或 定义 底层 类 card 和 Deck。 一 般 来 说 ,将 它们 定义 为 单独 的 模块 是 一 个 好 主意 。 基 本 
功能 应 该 独立 存在 并 在 Web 服务 环境 之 外 进行 测试 。Web 服务 应 该 包装 现 有 的 可 用 软件 。 
(3) 创建 所 有 会 话 共享 的 对 象 。deck 值 是 一 个 模块 全 局 变量 





O 


random.seed(os.environ.get ('DEAL APP_SEED')) 
deck = Deck() 


我 们 依靠 os 模块 来 检查 环境 变量 。 如 果 已 经 定义 了 环境 变量 DEAL_APP_SEED, 那么 将 使 用 字符 
值 来 初始 化 随机 数 生成 器 。 否 则 ， 将 依靠 random 模块 内 置 的 随机 化 功能 。 

(4) 将 目标 WSGI 应 用 程序 定义 为 一 个 函数 ,该 函数 将 通过 返回 一 手 牌 来 响应 请 求 , 然 后 创建 cara 
言 息 的 JSON 表示 形式 。 


def deal_cards (environ, start_response): 
global deck 
hangd_size = int (environ.get ('HAND_ SIZE', 5)) 
cards = deck.deal (hand_size) 
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status = "{status.value} {status .phrase}" .format ( 
status=HTTPStatus .OK) 
headers = [('Content-Type', 'application/json;charset=utf-8')] 


start_response(status, headers) 
json_cards = list(card.to_ json() for card in cards) 
return [json.dumps (json_ cards, indent=2) .encode('utf-8')] 


deal_cards () 函数 处 理 deck 中 的 下 一 组 牌 ,操作 系统 环境 可 以 定义 一 个 HAND_SIZE 环境 变量 
来 改变 发 牌 数 量 的 大 小 。 全 局 deck 对 象 用 于 执行 相关 处 理 。 

响应 的 status 行 是 一 个 字符 串 ， 该 字符 串 包 含 HTTP 状态 为 OK 的 数值 value 和 phrase。 该 
行 可 以 紧 跟 首部 。 该 示例 包括 Content-Type 首部 ， 以 向 客户 端 提供 信息 ， 内 容 是 一 个 JSON 文档 ， 
该 文档 使 用 utf-8 编码 。 最 后 ， 文 档 本 身 就 是 该 函数 的 返回 值 。 

(5) 为 了 演示 和 调试 ， 构 建 运行 WSGI 应 用 程序 的 服务 器 是 非常 有 用 的 。 本 实例 将 使 用 wsgiref 
模块 的 服务 器 。Werkzeug 中 定义 了 很 多 优秀 的 服务 器 ， 像 GUnicorn 这 样 的 服务 器 是 更 好 的 选择 。 


from wsgiref.simple_server import make_server 
httpd = make_server('', 8080, deal_cards) 
httpd.serve_forever () 
运行 服务 器 之 后 ， 可 以 打开 浏览 器 访问 http://localhost:8080/， 结 果 将 返回 5 张 纸 牌 。 每 次 刷新 ， 
都 会 得 到 不 同 批 次 的 纸牌 。 
这 样 做 是 可 行 的 ， 因 为 在 浏览 器 中 输入 URL 会 使 用 首部 的 最 小 集合 来 执行 GET 请 求 。 由 于 我 们 
的 WSGI 应 用 程序 不 需要 任何 特定 的 首部 ， 而 且 响 应 任意 HTTP 方 法， 因此 最 后 将 返回 一 个 结果 。 
结果 是 一 个 JSON 文档 ， 代 表 从 当前 的 这 副 牌 中 发 出 的 5 张 牌 。 每 张 牌 都 由 一 个 类 名 、rank 和 
suit 来 表示 。 
[ 
{ 
ass a vCard™.; 
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] 


可 以 创建 网 页 以 及 JavaScript 程序 来 获取 批量 的 纸牌 ,这 些 网 页 和 JavaScript 程序 可 以 为 发 牌 过 程 
添加 动画 效果 ， 并 为 纸牌 添加 图 形 。 




















12.2.3 ”工作 原理 


WSGI 标准 定义 了 Web 服务 器 和 应 用 程序 之 间 的 接口 。 该 接口 基于 Apache HTTPD 通用 网 关 接 口 
(common gateway interface，CGI )。CGI 的 目的 是 运行 shell 脚本 或 单独 的 二 进 制 文 件 。WSGI 是 对 这 
一 遗留 概念 的 改进 。 

WSGI 标 准 定义 了 包含 多 种 信息 的 环境 字典 。 

口 字典 中 的 许多 键 反映 了 某 些 初步 解析 和 转换 数据 后 的 请 求 。 
REQUEST_METHOD: HTTP 的 请 求 方法 ， 比 如 GET 或 PosT。 
SCRIPT_NAME: 请 求 URL 的 路 径 的 初始 部 分 , 通常 被 视 为 一 个 整体 的 应 用 程序 对 象 或 隐 数 。 
PATH_INFO: 请 求 URL 的 其 余部 分 路 径 ， 指 定 资源 的 位 置 。 本 例 没有 执行 路 径 解析 。 
QUERY_STRING: 请 求 URL 中 ?之 后 的 部 分 。 
CONTENT_TYPE: HTTP 请 求 中 Content-Type 首部 值 的 内 容 。 
CONTENT_LENGTH: HTTP 请 求 中 Content-Length 首部 值 的 内 容 。 
SERVER_NAME 和 SERVER_PORT: 请 求 中 的 服务 器 名 称 和 端口 号 。 
上 SERVER_PROTOCOL: 客户 端 用 于 发 送 请 求 的 协议 版 本 ,通常 是 HTTP/1.0 或 HTTP/1.1。 
口 HTTP 首部 : 这 些 键 以 HErTP_ 开 头 ， 包 含 首 部 名 称 ， 并 且 全 部 都 大 写 。 

通常 ， 请 求 的 内 容 并 不 是 从 服务 器 创建 响应 所 需 的 唯一 数据 。 经 常 需要 附加 信息 ， 这 些 信 息 一 般 

包括 两 种 数据 。 
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口 操作 系统 环境 : 当 服 务 启动 时 ， 环 境 变量 为 服务 器 提供 了 配置 的 详细 信息 。 环 境 变 量 可 以 提 
供 存放 静态 内 容 的 目录 路 径 ， 也 可 以 提供 用 于 验证 用 户 的 信息 。 
口 WSGI 服务 器 上 下 文 : 这 些 键 以 wsgi .开头 ， 始 终 为 小 写 。 值 包括 一 些 遵 守 WSGI 标准 的 服 
务 器 内 部 状态 的 附加 信息 。 有 两 个 特别 有 趣 的 对 象 ， 分 别提 供 文件 上 传 和 日 志 支 持 功能 。 
时 wsgi .input: 一 个 类 似 文件 的 对 象 。 由 此 可 以 读 取 HTTP 请 求 体 的 字 节 。 通 常 必须 根据 
Content-Type 首部 解码 。 
加 wsgi .errors: 一 个 类 似 文件 的 对 象 。 可 以 写 人 错误 输出 。 这 是 服务 器 的 日 志 。 
WSGI 函数 的 返回 值 可 以 是 序列 对 象 或 可 迭代 对 象 。 返 回 可 迭代 对 象 适 用 于 非常 大 的 文档 ， 这 些 
文档 可 以 分 散 构建 ， 并 且 可 以 通过 一 些 较 小 的 缓冲 区 下 载 。 
本 例 中 的 WSGI 应 用 程序 不 检查 请 求 路 径 。 任 何 路 径 都 可 以 取 回 一 手 牌 。 更 复杂 的 应 用 程序 可 能 
会 解析 路 径 ， 以 确定 正在 请 求 的 这 手 牌 的 张 数 或 应 发 出 的 张 数 。 


12.2.4 ”补充 知识 


Web 服务 可 以 视 为 许多 通用 块 ， 它 们 连接 在 一 起 并 形成 钥 套 的 层次 。WSGI 应 用 程序 的 统一 接口 
鼓励 这 种 可 重用 功能 的 组 合 。 
许多 常用 技术 可 以 保护 和 产生 动态 内 容 ， 这 些 技术 是 Web 服务 应 用 程序 的 横 切 关注 点 
( cross-cutting concern )。 我 们 有 以 下 两 种 选择 。 
口 在 单个 应 用 程序 中 编写 大 量 if 语句 。 
口 提取 通用 程序 设计 ， 并 创建 一 个 通用 的 包装 器 ， 将 安全 问题 与 内 容 构建 分 离 。 

包装 器 只 不 过 是 另 一 个 WSGI 应 用 程序 ， 它 并 不 直接 产生 结果 ， 而 是 把 产生 结果 的 工作 交 给 别 的 
WSGI 应 用 程序 。 
例如 , 我 们 可 能 需要 一 个 确认 预期 JSON 响应 的 包装 器 。 这 个 包装 器 会 区 分 以 人 为 本 的 HIML 和 
以 应 用 为 中 心 的 JSON 请 求 。 

为 了 使 应 用 程序 更 灵活 ， 用 可 调用 对 象 奉 代 简 单 的 函数 通常 很 有 帮助 。 这 样 做 可 以 使 各 种 应 用 程 
序 和 包装 器 的 配置 更 加 灵活 。 我 们 将 组 合 JSON 过 滤器 和 可 调用 对 象 。 该 对 象 的 概要 如 下 所 示 : 


class JSON Filter: 
def __init_ _(self, json_ app): 
self.json_ app = json_app 
def _ call_ (self, environ, start_response): 
return json app (environ, start_response) 


通过 提供 另 一 个 应 用 程序 从 该 类 定义 创建 一 个 可 调用 对 象 。 该 可 调用 对 象 将 包装 另 一 个 应 用 程序 
json_app。 使 用 方法 如 下 : 


json_ wrapper = JSON_Filter(deal_ cards) 


上 述 代 码 将 包装 原始 的 deal_cards () WSGI 应 用 程序 。 现在 可 以 将 复合 的 json_wrapper 对 象 
用 作 WSGI 应 用 程序 。 当 服务 器 调用 json_wrapper (environ, start_response) 时 , 将 调用 对 象 
的 __call__() 方 法 。 在 本 示例 中 ， 该 方法 会 将 请 求 传递 给 deal_cards () 函数 。 























































































































SS 
























































































































































12.2 使 用 WSGI 实现 Web 服务 407 











更 完整 的 包装 顺应 用 程序 如 下 所 示 。 该 包装 器 将 检查 HTTP Accept 首部 是 否 含有 字符 串 json， 
还 将 检查 查询 字符 串 ?$format=json, 确认 是 否 发 出 了 JSON 格式 的 请 求 。 该 类 的 实例 通过 配置 可 以 
引用 deal_cards () WSGI 应 用 程序 。 


from urllib.parse import Darse_ds 
class JSON_Filter: 
def _ init__(self, json app): 
self.json_ app = json_app 
def _ call (self, environ, start_response): 
If 'HTTP_ACCEPT' in environ: 
if 'json' in environ['HTTP_ ACCEPT']: 
environ['$format'] = 'json' 
return self.json app(lenviron, start_response) 
decoded_ query = parse qs (environ['QUERY_STRING']) 
































if 'S$format' in decoded query: 
if decoded query['s$format']{[0] .lower() == 'json': 
environ['$format'] = 'json' 
return self.json app(lenviron, start_response) 
status = "{status.value}{status.phrase}".format (status=HTTPStatus.BAD_ 
REQUEST) 
headers = [('Content-Type', 'text/plain;charset=utf-8')] 
start_response(status, headers) 


return ["Request doesn't include ?$format=json or Accept 
header".encode('utf-8')] 


call _() 方 法 检查 HTTP Accept 首部 以 及 查询 字符 串 。 如 果 字 符 串 json 出 现在 HTTP Accept 

首部 的 任意 位 置 ， 则 调用 给 定 的 应 用 程序 。 更 新 环境 ， 添 加 该 包装 器 使 用 的 首部 信息 。 

如 果 HTTP Accept 首部 不 存在 或 者 不 需要 JSON 响应 ， 则 检查 查询 字符 串 。 这 种 备用 方案 可 能 是 
有 帮助 的 ， 因 为 很 难 更 改 浏览 器 发 送 的 首部 。 使 用 查询 字符 串 是 相对 于 HTTP Accept 首部 的 一 个 浏览 
器 友好 的 替代 方案 。parse_ds () 函数 将 查询 字符 串 分 解 为 由 键 和 值 构成 的 字典 。 如 果 查 询 字 符 串 的 
键 为 sformat ， 则 检查 其 值 是 否 包含 json。 如 果 包 含 ,那么 使 用 查询 字符 串 中 的 格式 信息 来 更 新 环境 。 

在 这 两 种 情况 下 ,调用 包装 器 应 用 程序 都 会 修改 环 境 。 被 包装 的 函数 只 需要 检查 WSGI 环境 的 格 
式 信息 。 包 装 对 象 在 没有 任何 进一步 修改 的 情况 下 返回 响应 。 
如 果 没 有 请 求 JSON， 则 使 用 简单 的 文本 消息 发 送 一 个 400 BAD REQUEST 响应 。 该 响应 将 提供 
一 些 指 导 ， 说 明 查 询 不 被 接受 的 原因 。 
JSON_Filter 包装 器 类 定义 的 使 用 方法 如 下 : 


Json_wrapper = JSON_Filter(deal_cards) 
httpd = make_server('', 8080, json _ wrapper) 


我 们 创建 了 一 个 引用 qeal_cards () 函数 的 JSON_Filter 类 实例 ， 而 不 使 用 qeal_cards () 创 
建 服务 器 。 这 样 做 的 效果 几乎 跟前 面 显示 > 样 。 最 重要 的 区 别 在 于 , 这 种 方法 需要 HTTP Accept 
首部 或 类 似 http://localhost:8080/?$format=json 的 URL。 










































































































































































6 本 例 有 一 个 微妙 的 语义 问题 。GET 方法 改变 了 服务 器 的 状态 ， 这 通常 不 是 好 事 。 
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因为 局 限于 浏览 融 ， 所 以 很 难 解决 问题 。 浏 览 融 没有 太 多 可 用 的 调试 支持 ， 这 意味 着 print () 
函数 和 日 志 消 息 对 于 调试 至 关 重要 ,由 于 WSGI 的 工作 原理 ,将 输出 重 定向 到 sys .stderr 至 关 重 要 。 
本 实例 使 用 Flask 更 容易 实现 ，12.3 节 将 会 详细 介绍 。 

HTTP 支持 多 种 方法 ,包括 GET、POST、PUT 和 DELETE。 通常 ,将 这 些 方 法 映射 到 数据 库 的 CRUD 
操作 是 非常 明智 的 ，GET 完成 创建 ，PosT 完成 检索 ，PUT 完成 更 新 ，DELETE 映射 到 删除 。 这 意味 着 
GET 操作 不 会 改变 数据 库 的 状态 。 

Web 服务 的 GET 操作 应 该 是 寡 等 的 。 在 没有 POST、PUT 或 DELETE 操作 的 情况 下 ， 一 系列 GET 
操作 每 次 都 应 当 返 回 相 同 的 结果 。 在 本 实例 中 ， 每 个 GET 操作 返回 不 同 的 结果 ， 这 是 一 个 使 用 GET 
操作 分 发 纸牌 的 语义 问题 。 

为 了 讲解 基础 知识 , 这 种 操作 结果 的 差异 性 是 次 要 的 。 对 于 庞大 而 复杂 的 Web 应 用 程序 来 说 ,这 
种 差别 是 一 个 重要 的 考虑 因素 。 由 于 发 牌 服 务 不 是 蝴 等 的 ， 因 此 某 种 观点 认为 应 该 使 用 PosT 方法 进 
行 访问 。 

为 了 便于 使 用 浏览 器 进行 研究 ， 本 实例 没有 在 WSGI 应 用 程序 中 检查 方法 。 
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12.2.5 “延伸 阅读 


口 Python 有 各 种 各 样 的 RESTful API 框架 。12.3 节 将 介绍 Flask 框架 。 
口 了 解 WSGI 标准 的 详细 信息 有 3 个 途径 。 
昌 PEP 3333 : 请 参阅 https:/www.python.org/dev/peps/pep-3333/。 
四 Python 标准 库 : 包含 wsgiref 模块 ， 这 是 标准 库 中 的 参考 实现 。 
加 Werkzeug 项 目 : 请 参阅 http:/werkzeug.pocoo.org。 这 是 一 个 包含 许多 WSGI 实用 程序 的 外 
部 库 ， 广 泛 用 于 实现 WSGI 应 用 程序 。 
口 男 请 参阅 http:/docs.oasis-open.org/odata/odata-json-format/v4.0/odata-json-format-v4.0.html， 以 
更 多 地 了 解 JSON 格式 的 Web 服务 数据 。 
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12.2 节 介绍 了 使 用 Python 标准 库 提供 的 WSGI 组 件 构 建 RESTful API 和 微服 务 的 方法 。 这 种 方法 
需要 大 量 的 程序 设计 工作 来 处 理 一 些 常见 的 情况 。 
如 何 简 化 常见 的 Web 应 用 程序 设计 并 消除 样板 代码 ? 


12.3.1 准备 工作 


首先 安装 Flask 框架 。 通 常 使 用 pip 安装 最 新 版 本 的 Flask 以 及 itsdangerous 、Jinja2 、click、 
MarkupSafe 、Werkzeug 等 其 他 相关 项 目 。 
安装 过 程 如 下 所 示 : 


Slotts$ sudo pip3.5 install flask 
Password: 
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Collecting flask 
Downloading Flask-0.11.1-py2.py3-none-any.whl (80k B) 
100% | 国 国 国 国 国 国 面 面 面 面 国 国 国 国 面 面 面 面 面 面 硬 硬 国 面 面 面 面 面 国 国 硬 国 | 31k 3 
3.6MB/s 
Collecting itsdangerous>=0.21 (from flask) 
Downloading itsdangerous-0.24.tar.gz (46k B) 
100% | 国 国 国 国 硬 国 面 面 面 古国 国 硬 国 面 面 面 面 面 面 硬 面 国 面 面 面 面 面 国 国 国 国 | 51k 3 
8.6MB/s 
Requirement already satisfied (use --upgrade to upgrade): Jinja2>=2.4 in 
/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages 
(from flask) 
Collecting click>=2.0 (from flask) 
Downloading click-6.6.tar.gz (283k B) 
100% | 国 硬 回国 国 国 面 面 面 面 国 国 国 国 面 面 面 面 古国 硬 硬 国 面 面 面 面 面 国 国 硬 图 | 286k B 
4.0MB/s 
Collecting Werkzeug>=0.7 (from flask) 
Downloading Werkzeug-0.11.10-py2.py3-none-any.whl (306k B) 
100% | 国 面 国 国 国 国 面 面 面 面 硬 国 硬 国 面 面 面 面 面 面 硬 硬 国 面 面 面 面 面 国 国 硬 图 | 307k 3 
3.8MB/s 
Requirement already satisfied (use --upgrade to upgrade): Markup Safe in 
/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages 
(from Jinja2>=2.4->flask) 
Installing collected packages: itsdangerous, click, Werkzeug, flask 
Running setup.py install for itsdangerous ... done 
Running setup.py install for click ... done 
Successfully installed Werkzeug-0.11.10 click-6.6 flask-0.11.1 
itsdangerous-0.24 


示例 显示 ，Jinja2 和 MarkupSafe 已 经 安装 过 了 ， 缺失 的 元 素 由 pip 查找 并 下 载 安 装 。Windows 
用 户 不 必 使 用 sudo 命令 。 
Flask 大 幅 简 化 了 Web 服务 应 用 程序 。 我 们 可 以 创建 一 个 包含 多 个 独立 函数 的 模块 ， 而 不 是 创建 
一 个 庞大 而 又 复杂 的 WSGI 兼容 函数 或 可 调用 对 象 。 每 个 函数 都 可 以 处 理 一 种 特定 的 URL 路 径 模 式 。 
本 实例 同样 讨论 在 12.2 节 中 使 用 过 的 核心 纸牌 分 发 函数 。carq 类 定义 了 一 张 简单 的 纸牌 ，Deck 
类 定义 了 一 副 纸牌 。 
因为 Flask 处 理 了 URL 解析 的 细节 ， 所 以 很 容易 创建 一 个 复杂 的 Web 服务 。 
定义 一 个 类 似 /dealer/hand/?cards=5 的 路 径 。 
该 路 径 有 3 部 分 重要 信息 。 
口 路 径 的 第 一 部 分 /dealer/ 是 整个 Web 服务 。 
口 路 径 的 下 一 部 分 hand/ 是 一 个 特定 的 资源 : 一 手 牌 。 
口 查询 字符 串 ?cards=5 为 查询 定义 了 cards 参数 。 该 参数 是 被 请 求 的 手 牌 张 数 ， 被 限制 在 1 
到 52 的 范围 内 。 超 出 范围 的 值 由 于 查询 无 效 将 得 到 400 状态 码 


12.3.2 实战 演练 | 


(1) 从 flask 包 中 导入 某 些 核 心 定 义 。Flask 类 定义 了 整个 应 用 程序 ，request 对 象 保存 当前 的 
Web 请 求 。 
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from flask import Flask, request, jsonify, abort 
from http import HTTPStatus 





jsonify () 函数 将 从 Flask 视图 函数 返回 一 个 JSON 格式 的 对 象 。abort () 函数 返回 一 个 HTTP 
错误 状态 ， 并 结束 对 请 求 的 处 理 。 

(2) 导入 基础 类 cara 和 Deck。 理 想 情 况 下 ， 这 些 类 都 是 从 单独 的 模块 导入 的 。 另 外 ， 应 当 可 以 
测试 Web 服务 环境 之 外 的 所 有 功能 。 

from ch12_r01 import Card, Deck 

为 了 正确 洗 牌 ， 还 需要 导 和 人 random 模块 。 


import random 
























































(3) 创建 Flask 对 象 。 这 是 主 Web 服务 应 用 程序 。 我 们 将 调用 Flask 应 用 程序 dealer, 并 把 该 对 象 
赋 给 一 个 全 局 变量 dealer。 


dealer = Flask('dealer') 


(4) 创建 主 应 用 程序 中 使 用 的 所 有 对 象 。 这 些 对 象 可 以 作为 属性 赋 给 Flask 对 象 dealer。 确 保 
创建 一 个 与 Flask 内 部 属性 不 冲突 的 独特 名 称 。 另 一 种 方法 是 使 用 模块 全 局 变量 。 

有 状态 的 全 局 对 象 必须 能 够 在 多 线程 环境 中 工作 ， 或 者 明确 禁用 线程 。 

import os 


random.seed(os.environ.get ('DEAL_ APP_SEED')) 
deck = Deck() 






















































































本 实例 中 ，Deck 类 的 实现 不 是 线程 安全 的 ， 所 以 将 依赖 于 一 个 单线 程 服务 器 。deal () 方 法 应 该 
使 用 threading 模块 中 的 Lock 类 来 定义 排他 锁 ， 确 保 正 确 操作 并 发 线程 。 

(5) 定义 一 个 绑 定 到 执行 特定 请 求 的 视图 函数 的 路 由 〈《URL 模式 )。 路 由 是 放置 在 函数 前 面 的 一 个 
装饰 顺 。 该 路 由 会 把 函数 绑 定 到 Flask 应 用 程序 。 

@dealer.route('/dealer/hand/') 

(6) 定义 视图 函数 ， 该 函数 将 取 回 数据 或 更 新 应 用 程序 状态 。 在 本 例 中 ,该 函数 同时 执行 这 两 项 
操作 。 


def deal (): 
长 我 丈 这 
















































































hangd_size = int (request.args.get('cards', 5)) 
assert 1 <= hangd_ size < 53 
except Exception as ex: 
abort (HTTPStatus .BAD_REQUEST) 
cards = deck.deal (hand_size) 
response = jsonify([card.to_ json() for card in cards]) 
return response 





Flask 解析 URL 中 ?之 后 的 字符 串 ( 查询 字符 串 )， 以 创建 request .args 值 。 客户 端 应 用 程序 或 
浏览 器 可 以 使 用 类 似 ?cards=13 的 查询 字符 串 来 设置 request .args 值 。 该 查询 将 为 桥牌 游戏 提供 
每 人 13 张 的 手 牌 。 

如 果 来 自 查 询 字 符 串 的 值 不 合适 ， 那 么 abort () 函数 将 结束 处 理 并 返回 400 HTTP 状态 码 。 这 
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表明 该 请 求 是 不 可 接受 的 。 这 是 一 个 最 小 的 响应 ， 没 有 更 多 详细 的 内 容 。 

应 用 程序 的 核心 处 理 是 cards = dealer.deck.deal (hand_size) 语 句 。 这 种 操作 的 目的 是 将 
现 有 的 功能 包装 到 Web 框架 中 。 这 些 功 能 可 以 在 没有 Web 应 用 程序 的 情况 下 进行 测试 。 

响应 由 jsonify () 函数 处 理 ， 该 函数 将 创建 一 个 响应 对 象 。 响 应 体 是 一 个 用 JSON 标记 表示 的 
Python 对 象 。 如 果 需 要 向 响应 添加 首部 ， 那 么 可 以 通过 更 新 response .headers 来 包含 附加 信息 。 
(7) 定义 运行 服务 器 的 主 程序 。 
半 丰 name = "Mai 

dealer.run(use_ reloader=True, threaded=False, debug=True) 


我 们 添加 了 debug=True 选项 ， 这 样 就 可 以 在 浏览 器 以 及 Flask 日 志文 件 中 提供 丰富 的 调试 信息 
了 。 运行 服务 器 之 后 ， 可 以 打开 浏览 器 访问 http://localhost:5000/。 结果 将 返回 5 张 纸 牌 。 每 刷新 一 次 ， 
都 会 得 到 不 同 批 次 的 纸牌 。 

这 样 做 是 可 行 的 ， 因 为 在 浏览 器 中 输入 URL 会 使 用 首部 的 最 小 集合 来 执行 GET 请 求 。 由 于 我 们 
的 WSGI 应 用 程序 不 需要 任何 特定 的 首部 ， 而 且 响 应 任意 HITP 方法 ， 因 此 最 后 将 返回 一 个 结果 。 

结果 是 一 个 包含 5 张 纸牌 的 JSON 文档 。 每 张 牌 都 由 一 个 类 名 称 、rank 和 suit 信息 来 表示 。 


[ 
{ 









































































































































Glass SS "Card”, 
vault VYIZ663., 
"an.6 

} 

{ 
ES "3 Ca 
suit ye 662™ 
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} 
"class "a Card”, 
到 WYU2660%., 
"Eank" :8 

lj 

{ 
TielLass "Car"; 
"Sult "ss "N2660; 
We va 

} 

{ 
"Lass ST "Card®.; 
"Sulit VNU2663":; 
bi 


] 


如 果 要 查看 5 张 以 上 的 纸牌 ， 则 可 以 修改 URL。 例 如 ，http://127.0.0.1:5000/dealer/hand /?cards=13 0 
将 返回 桥牌 的 一 手 牌 。 
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12.3.3 ”工作 原理 


Flask 应 用 程序 由 一 个 应 用 程序 对 象 和 多 个 单独 的 视图 函数 组 成 。 本 实例 创建 了 一 个 单独 的 视图 
函数 aeal () 。 应 用 程序 通常 具有 很 多 函数 。 复 杂 的 网 站 可 能 具有 许多 应 用 程序 ， 每 个 应 用 程序 又 具 
有 很 多 聘 数 。 

路 由 是 URL 模式 和 视图 函数 之 间 的 映射 。 因 此 ， 路 由 有 可 能 包含 视图 函数 使 用 的 参数 。 

@flask.route 装饰 器 是 将 路 由 和 视图 函数 添加 到 Flask 实例 的 关键 技术 。 视 图 函数 根据 路 由 模 


















































































































































式 绑 定 到 应 用 程序 中 。 
Flask 对 象 的 run() 方 法 可 以 执行 以 下 种 类 的 处 理 。 这 并 不 是 Flask 的 工作 原理 ， 但 是 提供 了 各 
种 步骤 的 大 致 概要 。 





口 等 待 HTTP 请 求 。Flask 遵循 WSGI 标准， 请 求 以 字典 的 形式 到 达 。 有 关 WSGI 的 更 多 信息 ， 
请 参阅 12.2 节 。 
口 从 WSGI 环境 创建 Flask request 对 象 。 该 对 象 包含 请 求 的 所 有 信息 ， 包 括 所 有 URL 元 素 、 
查询 字符 串 元 素 和 附加 文档 。 
口 Flask 检查 各 种 路 由 ， 查 找 与 请 求 路 径 匹配 的 路 由 。 
晶 如 果 找 到 路 由 ， 则 执行 视图 函数 。 该 函数 将 创建 一 个 response 对 象 。 该 对 象 是 视图 
的 返回 值 。 
@ 如 果 找 不 到 路 由 ， 则 自动 发 送 404 NoT FOUND 响应 。 
口 遵循 WSGI 模式 准备 状态 和 首部 ， 开 始 发 送 响应 。 然 后 ， 以 字 节 流 的 形式 提供 从 视图 函数 返 
回 的 response 对 象 。 
Flask 应 用 程序 可 以 包含 许多 方法 ,使 得 提供 Web 服务 非常 容易 。Flask 将 这 些 方法 作为 独立 函数 
暴露 ， 这 些 函 数 都 隐 式 绑 定 到 请 求 或 会 话 。 这 样 就 使 得 编写 视图 郴 数 更 容易 了 。 
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12.3.4 ”补充 知识 


在 12.2 节 中 ,我们 将 应 用 程序 包装 在 一 个 通用 测试 中 , 该 测试 确认 了 请 求 是 否 具 有 两 个 特性 之 一 。 
我 们 使 用 了 以 下 两 个 规则 : 
口 包含 JSON 的 Accept 首部 ; 
口 包含 Sformat=json 的 查询 字符 串 。 
如 果 我 们 正在 编写 复杂 的 RESTful 应 用 服务 器 ,那么 会 经 常 希望 将 这 种 测试 应 用 于 所 有 的 视图 函 
数 ， 而 不 想 为 了 测试 重复 代码 。 
当然 ， 可 以 将 12.2 节 中 的 WSGI 解 决 方案 与 Flask 应 用 程序 组 合 起 来 ， 构 建 一 个 复合 应 用 程序 ， 
也 可 以 完全 使 用 Flask 完成 。 纯 Flask 解决 方案 比 WSGI 解决 方案 要 简单 得 多 ， 非 常 值得 一 试 。 
前 面 介绍 了 Flask 的 @flask.route 装饰 器 , Flask 还 有 许多 其 他 装饰 器 , 可 用 于 定义 请 求 和 响应 
处 理 中 的 各 个 阶段 。 为 了 测试 传人 的 请 求 ， 可 以 使 用 @flask.before_request 装饰 髓 。 所 有 被 该 
装饰 器 装饰 的 函数 将 在 处 理 请 求 前 被 调用 。 
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@dealer.before request 
def check json(): 
if 'json' in request.headers.get ('Accept'): 
return 
if 'json' == request.args.get('$format'): 
return 
return abort (HTTPStatus .BAD_ REQUEST) 


当 @flask.before_request 装饰 髓 没有 返回 值 (或 返回 None ) 时 ， 处 理 过 程 将 继续 进行 。 接 
着 检查 路 由 ， 并 执行 视图 函数 。 

在 本 例 中 ,如 果 Accept 首部 包含 json 或 者 sformat 查询 参数 的 值 为 json ,那么 函数 返回 None。 
这 意味 着 将 会 找到 正常 的 视图 函数 来 处 理 请 求 。 

当 @flask.before_request 装饰 器 返回 值 时 ， 返 回 值 就 是 最 终结 果 ， 处 理 过 程 停止 执行 。 在 
本 例 中 ，check_json () 函数 会 返回 一 个 abort () 响 应, 该 响应 将 停止 处 理 过 程 。abort () 响应 成 为 
了 来 自 Flask 应 用 程序 的 最 终 响应 ， 这 样 返 回 错 误 消息 就 非常 容易 了 。 

现在 可 以 在 浏览 器 地 址 栏 输入 以 下 URL: 

http://127.0.0.1:5000/dealer/hand/?cards=13&$format=json 

该 URL 将 返回 13 张 的 一 手 牌 , 请 求 显 式 地 以 JSON 格式 请 求 结果 。 可 以 尝试 为 $Sformat 提供 其 
他 值 或 者 完全 省 略 $format 键 。 
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人 本 例 有 一 个 微妙 的 语义 问题 。GET 方法 改变 了 服务 器 的 状态 ， 这 通常 不 是 好 事 。 


HTTP 支持 一 些 类 似 数据 库 CRUD 操作 的 方法 。cET 完成 创建 ，PosT 完成 检索 ，PUT 完成 更 新 ， 
DELETE 映射 到 删除 。 

Web 服务 的 GET 操作 应 该 是 究 等 的 。 在 没有 POST、PUT 或 DELETE 操作 的 情况 下 ， 一 系列 GET 
操作 每 次 都 应 当 返 回 相同 的 结果 。 在 本 实例 中 ,每 个 ceT 操作 返回 不 同 的 结果 。 由 于 发 牌 服务 不 是 寡 
等 的 ， 因 此 应 当 使 用 PosT 方法 访问 。 

为 了 便于 使 用 浏览 器 进行 研究 ， 我 们 避免 了 在 Flask 的 路 由 中 检查 方法 。 理 想 情况 下 ， 路 由 装饰 
器 应 当 如 下 所 示 


@dealer.route('/dealer/hand/', methods=['POST']) 


这 样 就 很 难 使 用 浏览 器 来 检查 服务 是 否 正常 工作 。12.5 节 将 介绍 如 何 使 用 PosT 方法 。 




























































































12.3.5 “延伸 阅读 


口 有 关 Web 服务 的 背景 信息 ， 请 参阅 12.2 节 。 

口 有 关 Flask 的 详细 信息 ， 请 参阅 http://flask.pocoo.org/docs/1.0/。 

口 有 关 Flask 框架 的 更 多 信息 ， 请 参阅 https:/www.packtpub.com/web-development/learning-flask- 
framework。 有 关 深 入 理解 Flask 的 更 多 信息 , 请 参阅 https://www.packtpub.com/web-development/ 


mastering-flask。 
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12.4 解析 请 求 中 的 查询 字符 串 


URL 是 复杂 的 对 象 ， 它 至 少 包含 6 块 单独 的 信息 。 可 以 通过 可 选 元 素 向 URL 添加 更 多 信息 。 
例如 ，URL http://127.0.0.1:5000/dealer/hand/?cards=13&$format=json 包含 以 下 几 个 字段 。 
口 http 是 协议 方案 。https 用 于 使 用 加 密 套 接 字 的 安全 连接 。 
口 127.0.0.1 可 以 被 称 为 授权 机 构 ， 不 过 网 络 位 置 这 个 名 字 可 能 更 常用 。 这 个 特定 的 IP 地 址 指 本 
地 主机 (localhost )， 是 本 地 主机 的 一 种 环 回 。 名 称 localhost 被 映射 到 了 此 了 P 地 址 。 
口 5000 是 端口 号 ， 它 是 授权 机 构 的 一 部 分 。 
口 /dealervhand/ 是 资源 的 路 径 。 
口 cards=13&$format=json 是 查询 字符 串 ， 使 用 ?符号 与 路 径 分 开 。 

查询 字符 串 可 能 相当 复杂 。 虽 然 不 是 官方 标准 ， 但 是 查询 字符 串 常常 存在 重复 的 键 。 尽 管 可 能 
起 来 有 点 让 人 困惑 ， 但 是 下 面 的 查询 字符 串 是 有 效 的 。 


?cards=13&cards=5 


我 们 重复 了 cargs 键 。Web 服务 将 提供 含 13 张 牌 的 一 手 牌 和 含 5 张 牌 的 一 手 牌 。 
重复 的 键 打破 了 URL 查询 字符 串 和 内 置 Python 字典 之 间 简 单 映射 的 可 能 性 。 该 问题 的 解决 方案 
有 以 下 几 种 。 
口 字典 中 的 每 个 键 都 必须 与 包含 所 有 值 的 列表 相关 联 。 这 对 于 没有 重复 键 的 常见 情况 来 说 是 很 
尴 众 的 ， 每 个 列表 只 有 一 个 元 素 。 这 种 解决 方案 可 通过 urllib.parse 中 的 parse_qs() 
实现 。 
口 每 个 刍 只 保存 一 次 ， 并 保留 第 一 个 ( 或 最 后 一 个 ) 值 ， 丢 弃 其 他 值 。 这 太 可 怕 了 。 
口 不 使 用 字典 ， 而 是 将 查询 字符 串 解析 为 ( 键 , 值 ) 对 列表 。 这 种 解决 方案 允许 键 重复 。 对 于 具有 
唯一 键 的 常见 情况 ， 列 表 可 以 转换 为 字典 。 对 于 不 常见 的 情况 ， 重 复 的 键 可 以 以 其 他 方式 处 
理 。 这 种 解决 方案 可 以 通过 urllib.parse 中 的 barse_asl () 实现 。 
有 没有 更 好 的 查询 字符 串 处 理 方法 呢 ? 是 否 可 以 拥有 一 个 更 复杂 的 结构 ， 对 于 常见 的 情况 ， 它 的 
行为 类 似 于 具有 单个 值 的 字典 ， 而 对 于 字段 键 重复 且 具 有 多 个 值 的 罕见 情况 ， 它 的 行为 类 似 于 更 复杂 
的 对 象 ? 


12.4.1 准备 工作 


Flask 依赖 于 Werkzeug。 当 使 用 pip 安装 Flask 时 , pip 也 将 安装 Werkzeug 工具 包 。 Werkzeug 
的 某 种 数据 结构 提供 了 一 种 处 理 查 询 字符 串 的 好 方法 。 

为 了 使 用 更 复杂 的 查询 字符 串 ,我 们 将 修改 12.3 节 中 的 示例 , 添加 另 一 个 可 以 分 发 多 手 牌 的 路 由 。 
每 手 牌 的 张 数 将 在 允许 重复 键 的 查询 字符 串 中 指定 。 
































































































































































































































































































































12.4.2 ”实战 演练 

















(1) 以 12.3 节 中 的 示例 为 基础 ， 为 现 有 的 Web 应 用 程序 添加 一 个 新 的 视图 函数 。 
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(2) 为 执行 特定 请 求 的 视图 函数 定义 路 由 (URL 模式 )。 路 由 是 放置 在 函数 前 面 的 一 个 装饰 器 。 
路 由 会 把 函数 绑 定 到 Flask 应 用 程序 。 

@dealer.route('/dealer/hands/') 

(3) 定义 一 个 视图 函数 ， 该 函数 响应 发 送 到 特定 路 由 的 请 求 。 

def multi_hand(): 

(4) 在 视图 函数 中 ,使 用 get () 方 法 提取 唯一 键 的 值 或 使 用 适合 于 内 置 aict 类 型 的 [] 语 法 。 这 
将 返回 单个 值 ， 从 而 避免 出 现 列表 只 包含 单个 元 素 。 

(5) 对 于 重复 键 , 使 用 get1ist () 方 法 。 这 个 方法 将 以 列表 形式 返回 每 个 值 。 要 查找 类 似 ?cards= 
5&cards=5 的 查询 字符 串 分 发 含 $ 张 牌 的 两 手 牌 ， 视 图 函数 如 下 所 示 : 

































































ts 
hand_sizes = request.args.getlist('cards', type=int) 


if len(hangd_sizes) == 
hand sies = 7 [L131L37L3;L3] 
assert all(1 <= hangd_ size < 53 for hangd_ size in hangd_ sizes) 


except Exception as ex: 
dealer.logger.exception (ex) 
abort (HTTPStatus .BAD_ REQUEST) 


hands = [deck.deal (hangd size) for hangd_ size in hangd sizes] 
response = jsonify( 
[ 
thand' ei, 
'cards':[card.to_ json() for card in hand] 
} for i, hand in enumerate (hands) 
] 
) 


return response 
函数 将 从 查询 字符 串 中 获取 所 有 cards 键 。 如 果 这 些 值 都 是 整数 ， 并 日 每 个 值 都 在 1 到 52 ( 包 
含 1 ， 52 ) 的 范围 内 ， 则 这 些 值 是 有 效 的 ， 并 且 视 图 函数 将 返回 一 个 结果 。 如 果 查 询 中 没有 carads 
ot 则 会 分 发 4 手 牌 ， 每 手 13 张 牌 。 
响应 将 是 每 手 牌 的 JSON 表示 (一 个 具有 两 个 键 的 小 字典 ): 手 牌 (hand ) ID 和 手 牌 中 的 牌 (card )。 
(6) 定义 运行 服务 器 的 主 程序 。 


生生 marme Sa 
dealer.run(use_reloader=True, threaded=False) 


运行 服务 需 之 后 ， 可 以 打开 浏览 器 查看 如 下 URL: 


http://localhost:5000/?cards=5 &cards=5&$format=]json 
结果 是 一 个 JSON 文件 , 包含 两 手 牌 , 每 手 5 张 牌 。 为 了 强调 响应 的 结构 , 我们 省 略 了 一 些 细 
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因为 Web 服务 解析 了 查询 字符 串 , 所 以 向 查询 字符 串 中 添加 更 复杂 的 手 牌 张 数 非常 简单 。 本 例 基 
于 12.3 节 ， 因 此 包含 Sformat=json。 

如 果实 现 了 aaqealer .before_request 困 数 check_json () 来 检查 JSON， 那 么 Sformat 就 
是 必需 的 。 如 果 没 有 实现 该 函数 ， 则 忽略 查询 字符 串 中 的 附加 信息 。 









































12.4.3 ”工作 原理 


Werkzeug 的 Multidict 类 是 一 个 非常 便捷 的 数据 结构 。 该 数据 结构 是 内 置 字典 的 一 个 扩展 ， 
允许 给 定 键 有 多 个 不 同 的 值 。 

可 以 使 用 collections 模块 的 defaultdict 类 构建 类 似 的 数据 结构 ， 定 义 为 defaultdict 
(List) 。 该 定义 的 问题 在 于 每 个 键 的 值 都 是 一 个 列表 ， 即 使 列表 中 只 有 一 个 元 素 作为 值 ， 也 是 如 此 。 

Multidict 类 的 优点 在 于 get () 方 法 的 变 体 。 当 有 重复 键 时 ，get () 方 法 返回 第 一 个 值 ; 当 键 只 
出 现 一 次 时 ，get () 方 法 返回 唯一 的 值 。 该 方法 有 一 个 默认 参数 ， 它 与 内 置 dict 类 的 方法 非常 相似 。 

然而 ，getlist () 方 法 返回 一 个 列表 ， 该 列表 包含 给 定 键 的 所 有 值 。 该 方法 是 Multidict 类 所 
特有 的 。 可 以 使 用 该 方法 解析 更 复杂 的 查询 字符 串 。 
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一 种 用 于 验证 查询 字符 串 的 常用 技术 是 在 元 素 通过 验证 时 将 其 弹出 。 这 种 技术 是 通过 pop () 和 
poplist () 方 法 实现 的 。 这 些 方法 将 从 Multidict 类 中 移 除 键 。 如 果 在 检查 所 有 有 效 键 后 仍 保留 
些 键 ， 则 这 些 附加 组 件 可 以 被 认为 是 语法 错误 ，Web 请 求 将 以 abort (HTTPStatus .BAD_REQUEST) 
拒绝 。 









































12.4.4 ”补充 知识 


查询 字符 串 使 用 相对 简单 的 语法 规则 。 一 个 或 多 个 键 值 对 使 用 = 作为 键 和 值 之 间 的 标点 符号 ， 
个 键 值 对 之 间 的 分 隔 符 是 字符 。 为 了 避免 在 解析 URL 时 引起 混淆 ， 必 须 对 键 和 值 编码 。 

URL 编码 规则 要 求 将 某 些 字符 蔡 换 为 HTML 实体 。 这 种 技术 被 称 为 百 分 号 编码 。 这 意味 着 当 把 & 
放 人 查询 字符 串 的 值 时 ， 它 必须 被 编码 为 s26， 显 示 这 种 编码 的 示例 如 下 所 示 : 


>>> from urllib.parse import urlencode 

>>> urlencode( {'n':355,'d':113} ) 

'n=355&d=113"' 

>>> urlencode( {'n':355,'d':113,'note':'thisg&that'} ) 
'n=355&d=113&note=this%26that' 




































































this&that 被 编码 为 this%26that。 
有 少数 字符 必须 使 用 百 分 号 编码 规则 ， 如 下 所 示 。 这 个 列表 来 自 于 RFC 3986 文档 ， 请 参阅 该 文 
档 的 2.2 节 。 
人 
通常 ， 与 网 页 相关 联 的 JavaScript 代码 将 负责 编码 查询 字符 串 。 如 果 用 Python 编写 API 客户 端 ， 
则 需要 使 用 urlencoae () 函数 对 查询 字符 串 进行 正确 的 编码 。Flask 将 自动 处 理解 码 。 
查询 字符 串 有 一 个 实际 大 小 限制 。 例 如 ，Apache HTTPD 有 一 个 配置 参数 LimitRequestLine， 
默认 值 为 8190。 该 参数 将 整个 URL 限制 为 这 个 大 小 。 
在 OData 规范 中 ,有 几 种 建议 用 于 查询 选项 的 值 。 该 规范 建议 Web 服务 支持 以 下 种 类 的 查询 选项 。 
口 对 于 标识 一 个 实体 或 一 个 实体 集合 的 URL， 可 以 使 用 sexpand 选项 和 sselect 选项 。 扩 展 
结果 意味 着 查询 将 提供 附加 详细 信息 。 选 择 查询 将 对 集合 施加 附加 标准 。 
口 对 于 标识 一 个 集合 的 URL， 应 当 支 持 sfilter、ssearch、Sorderby、Scount、sSskip 和 
stop 选项 。 这些 选项 对 于 返回 单个 元 素 的 URL 没有 意义 。s$filter 和 $search 选项 接受 查 
找 数据 的 复杂 条 件 。$orderby 选项 定义 对 结果 施加 的 特定 顺序 。$count 选项 从 根本 上 改变 
了 查询 , 将 返回 元 素 的 数量 而 不 是 元 素 本 身 。$top 和 $skip 选项 用 于 分 页 数据 。 如 果 数 据 量 
很 大 , 则 通常 使 用 $top 选项 将 结果 限制 为 将 在 网 页 上 显示 的 特定 数量 。$skip 选项 的 值 确定 
将 显示 哪个 分 页 的 数据 。 例 如 ，stop=20$skip=40 将 是 结果 的 第 3 页 一 一 跳 过 40 项 后 的 前 
20 项 。 
一 般 来 说 , 所 有 URL 都 应 该 支持 $format 选项 来 指定 结果 的 格式 ,前 面 的 实例 一 直 在 使 用 JSON 
格式 ,但 更 复杂 的 服务 可 能 会 提供 CSV 输出 ， 甚 至 XML 输出 。 
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12.4.5 ”延伸 阅读 


口 有 关 使 用 Flask 实现 Web 服务 的 基础 知识 ， 请 参阅 12.3 节 。 
口 12.5 节 将 介绍 如 何 编写 可 以 构造 复杂 查询 字符 串 的 客户 端 应 用 程序 。 


12.5 使 用 ur1llib 发 送 REST 请 求 


Web 应 用 程序 有 两 个 基本 部 分 。 
口 客户 端 : 可 以 是 用 户 的 浏览 器 ， 也 可 以 是 移动 端 应 用 程序 。 在 某 些 情况 下 ， 一 个 Web 服务 器 
可 能 是 其 他 Web 服务 器 的 客户 端 。 
口 服务 器 : 提供 Web 服务 和 资源 。12.2 节 、12.3 节 和 12.4 节 ， 以 及 其 他 一 些 实例 ， 例 如 12.7 节 
和 12.8 节 ， 都 介绍 了 这 些 内 容 。 
基于 浏览 器 的 客户 端 通常 用 JavaScript 编写 。 编 写 移 动 端 应 用 程序 的 语言 种 类 非常 多 ， 其 中 重点 
是 适用 于 Android 设备 的 Java， 以 及 适用 于 iOS 设备 的 Objective-C 和 Swift。 
许多 用 户 故 事 涉及 使 用 Python 编写 的 RESTful API 客户 端 。 如 何 使 用 Python 编写 一 个 RESTful 
Web 服务 客户 端 ? 


12.5.1 ”准备 工作 


假设 有 一 个 基于 12.2 节 、12.3 节 或 者 12.4 节 的 Web 服务 器 。 可 以 通过 以 下 方式 为 该 服务 器 的 行 
为 编写 一 个 正式 规范 : 
{ 





































































































































































































"swagger": "2.0"， 
Wo 
"titlen dealer,, 
"version": "1.0" 
hs 
"schemes": ["http"], 
"nost®: Vy.0%0. L5000", 
"basePpath": "/dealer", 
"consumes": ["application/json"], 
"produces": ["application/json"], 
we > “二 
"harnds et 
"get": { 
"parameters": [ 
{ 
"name": "cards", 
"in": "gquery", 
"description": "number of cards in each hand", 
"YDe SS™ "arrayy 
"items": {"type": "integer"}, 
"collectionFormat": "multi", 


"deFaultn [L313 L137 


12.5 使 用 urllib 发 送 REST 请 求 419 





"responses": { 
"200": { 
"description™": 


"one hand of cards for each ‘hand. value in the query string" 


} 
} 
} 
} 
"/hand": { 


"get": { 
"parameters": |[ 
{ 
"name": "cards", 
Tir TUS 
Eye "INtSger™., 


"default": 5 


} 
] 


, 
"responses": { 


"200": { 
"description": 


"One hand of cards with a size given by the ‘hand. value in the query string" 























该 文档 说 明了 如 何 利 用 Python 的 urllip 模块 来 使 用 这 些 服务 。 它 还 描述 了 预期 的 响应 , 提供 了 


响应 处 理 方法 的 指导 。 














本 规范 中 的 某 些 字段 定义 了 一 个 基 URL。 以 下 3 个 字段 提供 了 该 信息 : 


"Schemes": ["http"], 
Get L200 OOO 
"basePath": "/dealer", 


produces 和 consumes 字段 提供 有 助 于 构建 和 验证 HTTP 首部 的 信息 。 请 求 content-Type 首 

















部 必须 是 服务 器 使 用 的 多 用 途 互联 网 邮件 扩展 ( multipurpose internet mail extensions，MIME ) 类 型 。 
类 似 地 ， 请 求 的 Accept 首部 必须 指定 服务 器 生成 的 MIME 类 型 。 针 对 这 两 个 字段 ， 我 们 都 会 提供 


application/jsono 











规范 的 paths 部 分 提供 了 详细 的 服务 定义 。 例 如 , 路 径 /hangs 详细 显示 了 如 何 对 多 手 牌 进行 请 





求 。 路 径 的 详细 信息 是 
当 HTTP 方 法 是 a 





basePath 值 的 后 级 。 
ET 方法 时 ， 则 在 查询 字符 























中 提供 参数 。 查 询 字 符 串 中 的 cards 参数 提供 纸 








牌 数量 的 整数 ， 可 以 多 


次 重复 该 参数 。 
































响应 将 至 少 包括 所 描述 的 响应 。 在 本 例 中 ，HTTP 状态 码 将 是 200， 响 应 体 具 有 最 小 的 描述 。 可 
以 为 响应 提供 一 个 更 正式 的 模式 定义 ,但 是 本 示例 将 省 略 这 个 定义 。 
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12.5.2 ”实战 演练 


(1) 导入 所 需 的 urllib 组 件 。 我 们 将 发 出 URL 请 求 ， 并 构建 更 复杂 的 对 象 ， 比 如 查询 字符 
为 了 实现 这 两 个 功能 ,需要 urllib.request 和 urllib.parse 模块, 由 于 预期 的 响应 格式 为 JSON， 
因此 也 需要 导入 json 模块 。 


import urllib.request 
import urllib.parse 
import json 


(2) 定义 将 要 使 用 的 查询 字符 串 。 在 本 例 中 ， 所 有 的 值 都 是 固定 的 。 在 更 复杂 的 应 用 程序 中 ， 某 
些 值 可 能 是 固定 的 ， 另 一 些 值 可 能 基于 用 户 输入 。 
Guery = thand': 5} 


(3) 使 用 查询 构建 完整 的 URL。 


full url = urllib.parse.ParseResult( 
scheme="http", 
netloo="127..0.081:5000"; 
path="/dealer" + "/hand/", 
params=None, 
query=urllib.parse.urlencode (query), 
fragment=None 





Ud 





[e) 






































) 


本 例 使 用 ParseResult 对 象 保存 URL 的 相关 信息 。 该 类 并 不 能 良好 地 处 理 缺 失 的 元 素 , 因此 必 
须 为 没有 使 用 的 URL 信息 提供 明确 的 None 值 。 

可 以 在 脚本 中 使 用 "http://127.0.0.1:5000/dealer/hand/?cardqs=5"， 但 是 这 个 字符 串 很 难 
改变 。 在 发 出 请 求 时 ， 它 作为 一 个 紧凑 的 消息 很 有 用 ,但 不 是 灵活 、 可 维护 和 可 测试 程序 的 理想 选择 。 

使 用 这 个 长 构造 器 的 优点 在 于 能 够 为 URL 的 每 个 部 分 提供 明确 的 值 。 在 更 复杂 的 应 用 程序 中 ， 
这 些 单独 的 部 分 都 是 建立 在 对 JSON Swagger 规范 文档 进行 分 析 的 基础 上 的 。 

(4) 构建 最 终 的 Request 实例 。 我 们 将 使 用 由 各 种 片段 构建 的 URL, 并 显 式 地 提供 HTTP 方法 ( 浏 
览 右 通常 用 cET 作为 默认 值 )。 另 外 ， 还 可 以 提供 明确 的 首部 。 


request = urllib.request.Request( 
url = urllib.parse.urlunparse (full_ url), 
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method = "GET", 
headers = { 
'Accept': 'application/json', 


} 
) 


我 们 不 仅 提供 了 HTTP Accept 首部 描述 由 服务 器 生成 并 由 客户 端 接受 的 MIME 类 型 结果 , 还 提供 
了 HTTP content-Type 首部 说 明 由 服务 器 使 用 并 由 客户 端 脚本 提供 的 请 求 。 

(5) 打开 一 个 上 下 文 来 处 理 响 应 。urlopen () 函数 发 出 请 求 ， 并 处 理 HTTP 协议 的 所 有 复 
最 终 产 生 的 对 象 可 作为 一 个 响应 进行 处 理 。 


with urllib.request.urlopen (regquest) as response: 
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(6) 我 们 通常 对 3 个 响应 属性 特别 感 兴趣 。 











print (response.status) 
print (response.headers) 
print (json.loads (response.read() .decode ("utf-8"))) 


status 是 最 后 的 状态 码 。 我 们 期 望 一 个 正常 请 求 的 200 HTTP 状态 。headers 包括 响应 中 的 所 有 























首部 。 例 如 ， 我 们 可 能 想 检查 response.headers['Content-Type'] 的 值 是 否 真 的 是 application/jsono 








response.read() 的 值 是 从 服务 器 下 载 的 字 节 。 我 们 经 常 需要 解码 这 些 字 节 来 获得 正确 的 Unicode 
字符 。utf-8 编码 方案 非常 普遍 。 可 以 使 用 json.1oads () 从 JSON 文档 创建 一 个 Python 对 象 。 
当 运 行 上 述 代码 时 ， 输 出 如 下 所 示 : 


200 
Content-Type 




















: application/json 


Content-Length: 367 
Server: Werkzeug/0.11.10 Python/3.5.1 
Date: Sat, 23 Jul 2016 19:46:35 GMT 


[{'suit': '%', 'rank': 4, '_class ': 'Card'}, 
{'suit': 'Y', 'rank': 4, '_ class_ 'Card'}, 
{'suit': '®%', 'rank': 9, '_class_ 'Card'}, 
{'suit': 's', 'rank': 1, '_class_ 'Card'}, 
{'suit': 's', 'rank': 2, '_ class ': 'Card'}] 


最 开始 的 200 


























是 状态 ， 显 示 一 切 正常 。 服 务 器 提供 了 4 个 首部 。 最 后 ， 内 部 Python 对 象 是 一 系 























列 小 字典 ， 它 们 提供 了 所 发 纸牌 的 相关 信息 。 
为 了 重建 card 对 象 ， 需 要 使 用 更 好 的 JSON 解析 器 。 请 参阅 9.7 市。 








12.5.3 ”工作 原理 
我 们 通过 几 个 明确 的 步骤 建立 了 请 求 。 


(1) 查询 数据 以 





一 个 带 有 键 和 值 的 简单 字典 开始 。 





(2) urlencoge () 函数 将 查询 数据 转换 为 查询 字符 串 并 正确 编码 。 
(3) 整个 URL 作为 ParseResult 对 象 中 的 独立 组 件 开始 。 这 使 得 URL 的 每 块 信息 都 是 可 见 的 ， 
并 且 是 可 改变 的 。 对 于 这 个 特定 的 API， 这 些 块 大 部 分 是 固定 的 。 在 其 他 API 中 ，URL 的 路 径 和 查询 

































































部 分 可 能 都 具有 动态 值 。 
(4) 整个 请 求 由 URL、 方 法 和 首部 字典 构建 。 本 示例 没有 提供 单独 的 文档 作为 请 求 体 。 如 果 发 送 











复杂 的 文档 或 上 传 文件 ， 那 么 也 可 以 通过 向 request 对 象 提供 详细 信息 来 完成 。 

















简单 的 应 用 程序 不 需要 逐步 组 装 。 在 简单 的 情况 下 ，URL 的 字面 量 字 符 串 值 是 可 以 接受 的 。 而 在 
另 一 个 极端 ， 更 复杂 的 应 用 程序 会 打印 中 间 结 果 进 行 调试 ， 帮 助 确保 正确 构造 请 求 。 
组 装 详细 信息 的 另外 一 个 好 处 是 提供 一 个 方便 的 单元 测试 途径 。 请 参见 第 11 章 来 了 解 更 多 信息 。 





我 们 常常 把 Web 客 






































户 端 分 解 为 请 求 构建 和 请 求 处 理 。 可 以 仔细 测试 请 求 构建 ,以 确保 所 有 元 素 都 正 胡 
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设置 。 可 以 使 用 虚拟 结果 测试 请 求 处 理 ， 这 些 虚拟 结果 不 涉及 远程 服务 器 的 实时 连接 。 
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12.5.4 ”补充 知识 

















基于 HTML 的 网 站 ， 人 们 期 望 





用 户 认证 通常 是 Web 服务 的 重要 组 成 部 分 。 对 于 强调 用 户 交互 目 














服务 器 通过 会 话 了 解 长 期 运行 的 事务 序列 。 用 户 自己 认证 一 次 之 后 ( 通常 使 用 

















j 户 名 和 密码 )， 服 务 
































器 将 一 直 使 用 这 个 认证 信息 ， 直 到 上 

对 于 RESTful Web 服务 ， 很 少 有 会 话 的 概念 。 每 个 
的 长 期 事务 状态 。 这 种 责任 被 转移 到 了 客户 端 应 
以 作为 单个 事务 呈现 的 复杂 文档 。 

对 于 RESTful API， 每 个 请 求 都 可 能 包含 身份 验证 信息 。12.8 节 将 会 详细 
通过 首部 提供 更 多 详细 信息 。 这 种 方法 适用 于 我 们 的 RESTful 客户 端 脚本 。 

为 Web 服务 器 提供 认证 信息 的 方法 有 多 种 。 
口 一 些 服务 使 用 HTTP Authorization 首部 。 当 与 苛 本 认 记 
个 请 求 提供 用 户 名 和 密码 。 





j 户 注销 或 会 话 过 期 为 止 。 
请 求 被 单独 处 理 





































































































介绍 。 


E 机 制 一 起 使 用 时 ,客户 端 可 以 为 每 


并 且 不 期 望 服务 器 维持 复杂 
用 程序 。 客 户 端 需要 发 出 适当 的 请 求 ， 以 构建 一 个 可 








现在 我 们 将 介绍 
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/LO 





中 已 编码 有 关 请求 者 的 信 
口 一 些 服务 会 创建 名 称 如 X-Auth-Token 的 首部 。 可 以 在 多 步 操作 中 使 月 
的 一 部 分 发 送 用 户 名 和 密码 凭据 。 结 果 将 包括 可 月 
常 ， 令 牌 的 有 效 期 很 得 ， 必 须 更 新 。 



























































口 一 些 服务 会 创建 全 新 的 首部 ， 其 名 称 如 API-Key。 该 首部 的 值 可 能 是 一 个 复杂 的 字符 串 ， 


有 于 后 续 API 请 求 的 字 











~ 








其 中 作为 初始 请 求 


月， 其 
符 串 值 ( 令 牌 )。 通 



































通常 ， 这 些 方法 需要 安全 套 接 层 ( secure socket layer，SSL ) 协议 。SSL 协议 也 可 以 用 于 https 协 
议 。 为 了 处 理 SSL 协议 ， 服 务 器 (或 者 有 时 候 是 客户 端 ) 必须 具有 正确 的 证 书 。 这 些 证 书 作为 客户 端 
和 服务 器 之 间 协 商 的 一 部 分 ， 设 置 加 密 的 套 接 字 对 。 
所 有 这 些 认 证 技术 都 具有 一 个 共同 特征 一 一 依赖 于 在 首部 中 发 送 附 加 信息 。 它 们 在 使 用 哪个 首 半 
以 及 发 送 什么 信息 时 略 有 不 同 。 在 最 简单 的 情况 下 ， 代 码 如 下 所 示 : 
request = urllib.request.Request( 
url = urllib.parse.urlunparse (full url), 
method = "GET", 
headers = { 
'Accept': 'application/json', 


'X-Authentication': 'seekrit password', 


} 
) 


这 个 假设 的 请 求 将 用 于 一 个 Web 服务 ， 需 要 在 X-Authentication 首部 
将 向 Web 服务 器 添加 身份 验证 功能 。 

1. OpenAPI (Swagger) 规范 

许多 服务 器 在 固定 的 标准 URL 路 径 / swagger .json 
为 Swagger， 提 供 接口 的 文件 名 反映 了 该 历史 。 

如 果 网 站 提供 ， 那 么 可 以 通过 以 下 方式 获取 网 站 的 OpenAPI 规范: 


swagger_request = urllib.request.Request!( 
url 'http://127.0.0.1:5000/dealer/swagger.json', 


















































FP 提 供 的 密码 。12.8 节 


显 式 地 提供 规范 。OpenAPI 规 范 以 前 被 称 
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method = "GET", 
headers = { 
'Accept': 'application/json', 
} 
) 


from pprint import pprint 
with urllib.request.urlopen (swagger_request) as response: 


swagger = json.loads (response.read() .decode ("utf-8")) 
pprint (swagger) 





获得 规范 之 后 ， 可 以 用 它 来 获取 服务 或 资源 的 详细 信息 ， 也 可 以 使 用 规范 中 的 技术 信息 来 构建 
URL、 查 询 字 符 串 和 首部 。 
2. 将 Swagger 添加 到 服务 器 


对 于 小 型 演示 服务 器 ， 需 要 一 个 额外 的 视图 函数 来 提供 OpenAPI 规范。 可 以 更 新 ch12_r03 .py 
模块 来 响应 对 swagger .json 的 请 求 。 
处 理 这 个 重要 信息 的 方法 有 以 下 几 种 。 
(1) 使 用 单独 的 静态 文件 ， 也 就 是 本 实例 已 经 展示 过 的 内 容 。 这 是 提供 所 需 内 容 的 一 种 非常 简单 的 
方式 。 
可 以 添加 的 视图 函数 如 下 所 示 ， 它 将 发 送 一 个 文件 。 当 然 ， 还 需要 将 规范 放 入 已 命名 的 文件 


from flask import send file 


@dealer.route('/dealer/swagger.json') 
def swagger () : 



















































































response = send filel('swagger.json', 


mimetype='application/json') 
return response 





这 种 方法 的 缺点 是 规范 会 与 实现 模块 分 离 。 

(2) 将 规范 能 入 模块 中 的 大 量 文本 。 例 如 ， 可 以 将 规范 提供 给 模块 本 身 的 文档 字符 串 。 这 种 方法 
提供 了 放置 重要 文档 的 可 见 位 置 ， 但 它 使 得 在 模块 级 别 包 含 文档 字符 串 测试 用 例 变 得 更 加 困难 。 

下 面 的 视图 函数 将 发 送 模 块 文档 字符 串 ， 假 设 该 字符 串 是 一 个 有 效 的 JSON 文档 。 


from flask import make_response 


@dealer.route('/dealer/swagger.json') 
def swagger () : 









































response = make_response(_ doc .encode('utf-8')) 
response.headers['Content-Type'] = 


'application/json' 
return response 














这 样 做 的 缺点 是 需要 检查 文档 字符 串 的 语法 是 否 是 有 效 的 JSON。 这 是 除了 验证 模块 实现 是 否 符 
合 规范 之 外 的 额外 验证 。 


(3) 以 适当 的 Python 语法 创建 Python 规范 对 象 ， 然 后 将 其 编码 为 JSON 并 传输 。 该 视图 函数 发 送 
一 个 specification 对 象 ， 该 对 象 必须 是 一 个 有 效 的 Python 对 象 ， 并 可 以 序列 化 为 JSON 标记 。 
from flask import make_response 
import json 
@dealer.routel(' 
def swagger3 () : 
response = 





























/dealer/swagger.json') 


make_response 
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json.dumps (specification, indent=2) .encode('utf-8')) 
response.headers['Content-Type'] = 'application/json' 
return response 


在 所 有 情况 下 ， 提 供 正式 规范 都 有 以 下 几 个 好 处 。 

(D 客户 端 应 用 程序 可 以 下 载 规范 ， 以 便 对 其 进行 微调 。 

(2) 当 包含 示例 时 ， 规 范 将 成 为 针对 客户 端 和 服务 器 的 一 系列 测试 用 例 。 
(3) 服务 器 应 用 程序 还 可 以 使 用 规范 的 各 种 细节 来 提供 验证 规则 、 默 认 值 和 其 他 详细 信息 


12.5.5 ”延伸 阅读 


口 12.4 市 介绍 了 核心 Web 服务 。 
口 12.8 节 将 添加 身份 验证 ， 以 使 服务 更 加 安全 。 


12.6 解析 URL 路 径 


URL 是 复杂 的 对 象 ， 它 至 少 包含 6 块 单独 的 信息 。 可 以 通过 可 选 元 素 向 URL 添加 更 多 信息 。 
例如 ，URL http://127.0.0.1:5000/dealer/hand/player 1?$format=json 包含 以 下 几 个 字段 。 
口 http 是 协议 方案 。https 用 于 使 用 加 密 套 接 字 的 安全 连接 。 
口 127.0.0.1 可 以 被 称 为 授权 机 构 ， 不 过 网 络 位 置 这 个 名 字 可 能 更 常用 。 这 个 特定 的 卫 地 址 指 本 
地 主机 (localhost )， 是 本 地 主机 的 一 种 环 回 。 名 称 localhost 被 映射 到 了 此 IP 地 址 。 
口 5000 是 端口 号 ， 它 是 授权 机 构 的 一 部 分 。 
口 /dealer/hand/player 1 是 资源 的 路 径 。 
口 $format=json 是 查询 字符 串 。 
资源 的 路 径 可 能 相当 复杂 。 在 RESTful Web 服务 中 ,通常 使 用 路 径 信息 来 识别 资源 的 分 组 、 独 立 
资源 甚至 资源 之 间 的 关系 。 
如 何 处 理 复杂 的 路 径 解 析 ? 


12.6.1 准备 工作 


大 多 数 Web 服务 提供 对 某 种 资源 的 访问 。 在 12.2 节 、12.3 节 和 12.4 节 中 , 资源 在 URL 路 径 上 以 
hand 或 hands 标识 。 这 在 某 种 程度 上 是 误导 。 

这 些 Web 服务 实际 上 包含 两 个 资源 。 
口 一 副 牌 (deck )， 可 以 通过 洗 一 副 牌 随机 产生 一 手 或 多 手 牌 。 
口 一 手 牌 (hand )， 被 视 为 对 请 求 的 瞬 态 响应 。 

更 麻烦 的 是 ， 手 牌 资 源 是 通过 cET 请 求 创建 的 ， 而 不 是 更 常见 的 PosT 请 求 。 这 是 令 人 困 
为 GET 请 求 从 来 不 会 改变 服务 器 的 状态 。 

对 于 简单 的 探索 和 技术 探究 ，cET 请 求 是 有 帮助 的 。 因 为 浏览 器 可 以 发 出 GET 请 求 , 所 以 这 是 探 
索 Web 服务 设计 某 些 方面 的 好 方法 。 
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新 设计 可 以 提供 对 Deck 类 随机 化 实例 的 显 式 访问 。 一 副 牌 的 一 个 特征 是 能 产生 多 手 牌 。 这 相 
当 于 Deck 是 一 个 集合 ， 而 Hanas 是 集合 中 的 一 个 资源 。 
口 /dealer/decks: POST 请 求 将 创建 一 个 新 的 deck 对 象 。 这 种 请 求 的 响应 用 于 标识 独特 的 deck。 
口 /gealer/deck/{id}/hands: GET 请 求 将 从 给 定 的 deck 标识 符 获取 一 个 hand 对 象 。 查 询 字 
符 串 将 指定 手 牌 有 多 少 张 牌 。 查 询 字符 串 可 以 使 用 $top 选项 来 限制 返回 多 少 把 手 牌 。 还 可 以 
使 用 $skip 选项 跳 过 一 些 手 牌 ， 并 为 以 后 的 手 牌 拿 牌 。 
因为 这 些 查询 不 能 轻易 地 从 浏览 器 完成 ， 所 以 需要 一 个 API 客户 端 。 可 以 使 用 Chrome 浏览 器 的 
Postman 插件 。 本 实例 将 基于 12.5 节 ， 介 绍 如 何 用 客户 端 处 理 这 些 复 杂 的 API。 
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12.6.2 ”实战 演练 


本 实例 分 为 两 个 部 分 : 服务 器 端 和 客户 端 。 
1. 服务 器 端 
(1) 首先 ， 把 12.4 节 作 为 一 个 Flask 应 用 程序 的 模板 。 修 改 该 实例 中 的 视图 函数 。 


from flask import Flask, jsonify, request, abort, make_response 
from http import HTTPStatus 
dealer = Flask('dealer') 


(2) 导入 其 他 模块 。 本 例 使 用 uuiga 模块 为 一 副 混 洗 过 的 牌 创建 唯一 的 键 。 

import uuid 

本 例 还 将 使 用 Werkzeug 的 BadRequest 响应 , 该 对 象 可 以 提供 详细 的 错误 信息 , 比 使 用 abort (400) 
表示 错误 的 请 求 要 友好 。 

from werkzeug.exceptions import BadRequest 

(3) 定义 全 局 状态 ， 包 括 decks 集合 ， 还 包括 随机 数 生成 器 。 在 测试 时 ， 它 可 以 提供 一 个 特定 的 
种 子 值 。 


import os 

import random 
random.seed(os.environ.get ('DEAL APP_SEED')) 
decks = {} 


(4) 定义 一 个 路 由 (URL 模式 ), 将 其 绑 定 到 执行 特定 请 求 的 视图 函数 。 路 由 是 放置 在 函数 前 面 的 
一 个 装饰 器 。 该 路 由 会 把 函数 绑 定 到 Flask 应 用 程序 。 

@dealer'.route('/deaLler/decks"., Tetheods=[ POST "1 ) 

我 们 定义 了 aecks 资源 , 并 将 路 由 限制 为 仅 处 理 Posm 请 求 。 这 缩小 了 该 特定 终端 的 语义 ( POST 
请 求 通常 意味 着 URL 将 在 服务 器 中 创建 新 的 东西 )。 本 例 将 在 aecks 集合 中 创建 一 个 新 的 实例 。 

(5) 定义 支持 该 资源 的 视图 函数 。 


def make_aqeck() : 
id = str(uuid.uuid1()) 
decks[id]= Deck() 
response_json = jsonify( 
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status='ok', 

信人 的 这 人 
) 
response = make_response (Yesponse_json，HTTPStatus .CREATED ) 
return response 


uuigd1 () 函数 将 基于 当前 主机 和 随机 种 子 序 列 生成 器 , 创建 一 个 通用 且 唯 一 的 ID。 字符 串 版 本 的 

ID 是 一 个 十 六 进 制 字 符 串 ,例如 93b8fc06-5395-11e6-9e73-38c9861bf556。 
我 们 将 使 用 该 字符 串 作 为 新 创建 的 Deck 实例 的 键 。 响 应 将 是 一 个 包含 两 个 字段 的 小 型 ON 
文档 。 
口 status 字段 的 值 将 是 ok, 因为 一 切 正常 。 该 字段 允许 提供 包括 警告 4 warning ) 或 错误 (error ) 
的 其 他 状态 信息 。 
D ia 字段 的 值 为 刚刚 创建 的 deck 实例 的 ID 字符 串 。 该 字段 允许 服务 器 有 多 个 同时 进行 的 游戏 ， 
每 个 都 由 deck 的 ID 区分。 
向 应 由 make_response () 困 数 创建 ， 这 样 就 可 以 提供 201 CREATED HTTP 状态 ， 而 不 是 默认 
值 200 okKk。 这 个 区 别 很 重要 ， 因 为 该 请 求 改变 了 服务 器 的 状态 。 
(6) 定义 一 个 需要 参数 的 路 由 。 在 本 例 中 ， 路 由 将 包括 待 分 发 的 特定 的 deck ID。 


@dealer.route('/dealer/decks/<id>/hands', methods=['GET']) 


<id> 是 一 个 路 径 模 板 ， 而 不 是 一 个 简单 的 路 径 文本 。Flask 将 解析 /字符 并 分 离 <id> 字 上 段 。 
(7) 定义 包含 匹配 模板 参数 的 一 个 视图 函数 。 由 于 模板 包含 <id>， 因 此 视图 函数 同样 也 有 一 个 参 
数 ia。 
def get_hands (1dq) : 
if id not in decks: 
dealer.logger.debug (id) 


return make_response( 
'ID {} not found'.format (id), HTTPStatus.NOT_FOUND) 
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ts 
cards = int (request.args.get('cards',13)) 
top = int (request.args.get('S$top',1)) 
Skip = int (request.args.get ('$skip',0)) 
assert skip*cards+top*cards <= len(decks[id] .cards), \ 
"Sskip, S$top, and cards larger than the deck" 
except ValueError as ex: 
return BadRequest (repr (ex)) 
subset = decks[id] .cards[skip*cards: (skip+top)*cards] 
hands = [subset[h*cards: (h+1)*cards] for h in range (top)] 
response = jsonify( 
[ 
{'hand':i, 'cards':[card.to_ json() for card in hand]} 
for i, hand in enumerate (hands) 
] 
) 


return response 
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如 果 ia 参数 的 值 不 是 decks 集合 中 的 一 个 键 ， 那么 该 函数 返回 404 NOT FOUND 响应 。 该 函数 
没有 使 用 abort () 函数 ， 而 是 使 用 BadRequest 来 包含 一 个 解释 性 的 错误 消息 。 我 们 也 可 以 在 Flask 
中 使 用 make_response () 函数 。 

该 函数 也 可 以 从 查询 字符 串 中 提取 stop、s$sskip 和 cards 的 值 。 对 于 本 示例 ， 因 为 所 有 出 现 的 
值 都 是 整数 ， 所 以 对 每 个 值 使 用 int ( ) 函数 。 我 们 对 查询 参数 进行 了 初步 的 检查 , 但 是 实际 上 需要 进 
一 步 检查 ， 请 思考 所 有 可 能 出 现 的 不 良 参 数 。 

subset 变量 是 正在 分 发 的 deck 的 一 部 分 。 我 们 从 skip 组 cards 开始 切 分 deck, 该 切片 中 只 
括 top 组 cardqs。 从 该 切片 开始 ，hangs 序列 将 subset 分 解 为 fop 手 牌 ， 每 手 牌 都 包含 cards。 
该 序列 通过 jsonify () 函数 转换 为 SON 并 返回 。 
默认 状态 为 200 Ok， 因为 该 查询 是 一 个 究 等 的 GET 请 求 。 每 次 发 送 查 询 都 将 返回 相同 的 纸牌 集合 。 
(8) 定义 运行 服务 器 的 主 程序 。 
和 ee threaded=False) 







































































2. 客户 端 
该 模块 类 似 于 12.5 节 中 的 客户 端 模块 。 
(1) 导入 使 用 RESTful API 的 基本 模块 。 


import urllib.request 
import urllib.parse 
import json 


(2) 要 通过 PosT 请 求 创建 洗 好 的 一 副 新 牌 ， 有 一 系列 步 又 。 首 先 ， 通 过 手动 创建 ParseResult 
对 象 来 分 块 定义 URL。 该 URL 随后 将 构建 为 单个 字符 串 。 


ful1_url = urllib.parse.ParseResult( 
scheme="http", 
netltoes T2000 1350000 
path="/dealer" + "/decks", 
params=None, 
query=None, 
fragment=None 











) 
(3) 由 URL、 方 法 和 首部 构建 一 个 request 对 象 。 


request = urllib.request.Request( 
url = urllib.parse.urlunparse (full_url), 
method = "POST", 
headers = { 
'Accept': 'application/json', 








} 
) 


默认 方法 GET 不 适用 于 这 个 API 请 求 。 
(4) 发 送 请 求 并 处 理 响 应 对 象 。 为 了 便于 调试 ， 需 要 打印 状态 和 首部 信息 。 一 般 来 说 ， 只 需要 确 
定 状 态 是 预期 的 201。 
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响应 文档 应 该 是 一 个 具有 两 个 字段 ( status 和 iaq ) 的 Python 字典 的 JSON 序列 化 文档 。 客 户 端 
在 使 用 ia 字段 中 的 值 之 前 ， 确 认 响 应 的 状态 是 否 为 ok。 


with ur1l1ib.redcduest .urlopen (redquest) as response: 
# print (response.status) 
assert response.status == 201 
# print (response.headers) 
document = json.loads (response.read() .decode ("utf-8")) 


print (document) 
assert document['status'] == 'OK' 
id = document['id'] 


许多 RESTful API 都 有 Location 首部 ， 它 提供 链接 到 所 创建 对 象 的 一 个 URL。 
(5) 创建 一 个 URL。 将 器 插 入 URL 路 径 ， 并 提供 一 些 查询 字符 串 参数 。 我 们 通过 创建 一 个 字典 
来 建 模 查询 字符 串 ， 然 后 使 用 ParseResult 对 象 构建 一 个 URL。 


[1 









































ful1_url = urllib.parse.ParseResult( 
scheme="http", 
netlocs "1000 L5000", 
path="/dealer" + "/decks/{id}/hands".format (id=id), 
params=None, 
query=urllib.parse.urlencode (query), 
fragment=None 
) 








使 用 "/qdecks/{id}/hands/".format (idq=iad) id 值 插入 路 径 。 男 一 种 方法 是 "/".join 
(1""， "decks"，i9，"hands"，""])。 请 注意 ， ee 寺 尾 的 一 种 方法 。 
(6) 使 用 完整 的 URL、 ee request 对 象 。 


request = urllib.request.Request( 
url = urllib.parse.urlunparse (full_ url), 


























method = "GET", 
headers = { 
'Accept': 'application/json', 


} 
) 


(7) 发 送 请 求 并 处 理 响 应 。 确 认 响 应 是 否 为 200 Ok， 然后 解析 响应 ， 获 取 作为 请 求 手 牌 的 一 部 分 
纸牌 的 详细 信息 /GAO 


with ur1l1ib.recduest .urlopen (redquest) as response: 
# print (response.status) 
assert response.status == 200 
# print (response.headers) 
cards = json.loads (response.read() .decode ("utf-8")) 



































print (cards) 
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运行 上 述 代 码 后 ,将 创建 一 个 全 新 的 Deck 实例 。 然 后 , 分 发 4 手 牌 ,每 手 13 张 牌 。 该 查询 定义 
了 手数 和 每 手 牌 的 张 数 。 

















12.6.3 ”工作 原理 


服务 器 端 定 义 了 两 个 路 由 ,这 两 个 路 由 分 别 用 于 表示 集合 和 集合 的 实例 。 一般 用 复数 名 词 decks 
定义 集合 路 径 。 使 用 复数 名 词 意味 着 CRUD 操作 专注 于 在 集合 中 创建 实例 。 

本 例 使 用 /dealer/gdecks 路 径 的 PosT 方法 实现 了 创建 操作 。 为 了 支持 取 回 操作 , 可 以 另外 编写 
一 个 视图 函数 处 理 /dealer/decks 路 径 的 GET 方法 。 这 将 暴露 decks 集合 中 的 所 有 实例 。 

如 果 支 持 删 除 操作 ， 则 可 以 使 用 /dealery/decks 的 DELETE 方法 。 更 新 操作 (使 用 PUT 方法 ) 
似乎 不 符合 本 实例 中 服务 器 端 创建 随机 aecks 的 背景 信息 。 

在 /dealer/decks 集合 中 , 通过 /dealery/decks/<idq> 路 径 来 标识 特定 的 deck。 该 设计 要 求 使 
用 GET 方法 从 给 定 的 一 副 牌 中 取出 多 手 牌 。 

其 余 的 CRUD 操作 ( 创建、 更 新 和 删除 ) 对 于 这 种 Deck 对 象 来 说 并 不 重要 。 创 建 Deck 对 象 后 ， 
客户 端 应 用 程序 可 以 从 一 副 牌 中 获取 各 种 各 样 的 手 牌 。 

1. 切 分 deck 

发 牌 算 法 把 一 副 牌 (deck ) 切 分 为 若干 切片 。 这 些 切 片 应 当 满 足 如 下 条 件 : 手 牌 (hand ) 数量 h 
和 每 手 牌 张 数 c 的 乘积 不 应 大 于 一 副 牌 的 大 小 DD。 

hxc=sD 

现实 中 ， 发 牌 还 牵扯 到 切 牌 ， 这 对 于 没 人 发 牌 的 玩家 是 一 种 非常 简单 的 洗 牌 。 传 统 上 ， 每 个 启 

纸牌 被 分 配给 每 个 手 牌 瓦 。 


















































































































































































































































H,={D,,n :0 <i<ce} 
上 述 公 式 规定 手 牌 已 -包含 纸牌 Ho = {Do, Di, Dy, ***, Dexn} , 手 牌 了 已 -包含 纸牌 豆 = {D1, Dl, Dit2h, ***, 
Diicxw}， 以 此 类 推 。 这 种 发 牌 方式 似乎 比 简单 地 把 下 一 批 c 张 纸牌 分 发 给 每 个 玩家 更 公平 。 
没有 必要 采用 这 种 发 牌 方式 ，Python 程序 可 以 轻松 地 实现 批量 发 牌 。 
H,={D,.n:0 <i<ce} 

Python 代码 创建 手 牌 已 ,包含 纸牌 轧 = {Do, D1, D;,…, D1}， 手 牌 雄 ,1 包含 纸牌 = {D,, De 
Da …, Dzc 14} ， 以 此 类 推 。 给 定 一 副 随机 的 纸牌 ， 跟 其 他 发 牌 方式 一 样 非常 公平 。 这 种 方式 很 容易 在 
Python 中 枚 举 ， 因 为 涉及 列表 切片 。 有 关切 片 的 更 多 信息 ， 请 参阅 4.4 节 。 

2. 客户 端 

该 事务 的 客户 端 是 一 系列 RESTful 请 求 。 

(1) 理想 情况 下 ， 首 先 使 用 GET 方法 从 swagger .json 获取 服务 器 的 规范 。 因 服务 器 而 异 ， 最 简 
单 的 情况 如 下 所 示 。 


with urllib.request.urlopen('http://127.0.0.1:5000/dealer/swagger.json') as response 
swagger = json.loads (response.read() .decode ("utf-8")) 


(2) 然后 ， 用 一 个 PosT 来 创建 新 的 Deck 实例 。 这 需要 创建 一 个 request 对 象 ， 以 便 将 方法 设 
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置 为 PoST。 

(3) 接 下 来 ， 用 一 个 GET 从 Deck 实例 中 得 到 手 牌 。 可 以 通过 将 URL 调整 为 字符 串 模 板 来 完成 。 
将 URL 用 作 独 立 字段 的 集合 ， 而 不 是 一 个 简单 的 字符 串 ， 这 种 方法 非常 普遍 。 

处 理 RESTful 应 用 程序 错误 的 方法 有 两 种 。 
口 使 用 简单 的 状态 响应 ， 例 如 用 于 未 找到 资源 的 abort (HTTPStatus .NOT_FOUND) 。 
口 对 无 效 的 请 求 使 用 make_response (message，HTTPStatus.BAD_REQOUEST) 。 该 消息 可 以 

提供 必要 的 详细 信息 。 

对 于 其 他 状态 码 ， 例 如 403 Forbidden， 我 们 不 想 提 供 太 多 的 详细 信息 。 在 授权 问题 上 ， 提 供 

太 多 细节 往往 不 是 一 个 好 主意 。 为 此 ，abort (HTTPStatus .FORBIDDEN) 可 能 是 适当 的 。 



































































































































12.6.4 ”补充 知识 


应 该 考虑 为 服务 需 添 加 一 些 功 能 : 
口 在 Accept 首部 中 检查 JSON; 
口 提供 Swagger 规范 。 

通常 使 用 首部 来 区 分 RESTful API 请 求 和 其 他 发 送 到 服务 器 端的 请 求 。Accept 首部 可 以 提供 
MIME 类 型 ， 用 于 区 分 JSON 内 容 的 请 求 和 面向 用 户 内 容 的 请 求 。 

@dealer .before_request 装饰 右 可 以 注 人 一 个 过 滤 每 个 请 求 的 也 数 。 该 过 滤器 可 以 根据 以 下 
要 求 区 分 正确 的 RESTful API 请 求 。 
口 Accept 首部 包括 一 个 包含 json 的 MIME 类 型 。 通 常 ， 完 整 的 MIME 字符 串 为 application/ 










































































jsono 
口 另外 ,可 以 为 swagger .json 文件 添加 异常 处 理 ,无 论 其 他 设置 如 何 , 都 可 以 将 其 视 为 RESTful 
API 请 求 。 


实现 该 功能 的 附加 代码 如 下 所 示 : 


@Qdealer.before request 
def check_ json(): 


if request.path == '/dealer/swagger.json': 
return 

if 'json' in request.headers.get ('Accept', '*/*'): 
return 


return abort (HTTPStatus .BAD_ REQUEST) 


该 过 滤器 仅 返 回 不 容易 理解 的 400 BAD REQUEST 响应 。 提 供 更 明确 的 错误 消息 可 能 会 泄露 太 
多 关于 服务 器 实现 的 信息 。 但 是 ,如 果 这 些 信 息 有 帮助 , 则 可 以 用 make_response () 蔡 换 abort () ， 
返回 更 详细 的 错误 消息 。 

1. 提供 Swagger 规范 

良好 的 RESTful API 为 各 种 可 用 的 服务 提供 Swagger 规范 。 这 个 规范 通常 包装 在 /swagger .json 
路 由 中 ,这 并 不 一 定 意味 着 可 以 使 用 文本 文件 ,相反 ,这 个 路 径 重 点 用 于 以 Swagger 2.0 规范 中 的 JSON 
标记 形式 提供 详细 的 接口 规范 。 
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我 们 定义 了 路 由 /swagger.json, 并 将 swagger3 () 函数 绑 定 到 了 这 
个 全 局 对 象 的 JSON 表示 形式 ， 如 下 所 示 : 


@dealer.routel(' 
def swagger3 () : 


个 路 由 。 这 个 函数 将 创建 一 

















/dealer/swagger.json') 


response = make_response(json.dumps (specification, 
response.headers['Content-Type'] = 
return response 


indent=2) .encode('utf-8')) 
'application/json' 


specification 对 象 的 结构 大 致 如 下 。 为 了 突出 整体 结构 ,一些 


些 细节 已 经 被 . . .替代 。 详情 如 下 
所 示 : 
specification = { 
'swagger': '2.0', 
TINE 
'title': '''Python Cookbook\nChapter 12, recipe 5. > 
versionm "1.0 
} 
'schemes': ['http'], 
Host 3 L272050.; L5000.3 
'basePath': '/dealer', 
'consumes': ['application/json'], 
'produces': ['application/json'], 
"Dat 二 


"deeks: ied} 
'/decks/{id}/hands': {...} 


} 











paths 中 的 两 个 路 径 对 应 服务 器 中 的 两 个 eqealer .route 装饰 需 。 因 此 ， 先 使 月 
设计 服务 器 ， 然 后 构建 符合 规范 的 代码 ， 这 种 设计 方法 往往 非常 有 效 。 
注意 小 的 语法 差异 ,Flask 使 用 /decks/<idq>/handqs,Swagger 规范 则 使 用 /decks/ {id}/hands。 

个 差异 意味 着 不 能 在 Python 和 Swagger 文档 之 间 进 行 简单 的 复制 和 粘贴 。 


/decks 路 径 的 详细 信息 如 下 所 示 。 这 部 分 代码 显示 了 来 自 查 询 字符 串 的 输入 参数 ， 还 显示 了 包 
含 deck ID 信息 的 201 响应 的 详细 信息 。 





日 Swagger 规范 























'/decks': { 
Ost 水 
'parameters': |[ 
' 

'name': 'size', 
'in': 'query', 
'type': 'integer', 
'default': 1, 


'description': '''number of decks to build andq shuffle''' 
} 


] “ 2 
'responses': { 





DOL 
'description': '''Create and shuffle a deck. Returns a unidue deck id.''' 
'schema': { 


‘type': 'object', 
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'properties': { 
etatuiss? {VEyBDe™ Letrangy};, 
于 二 的 总 下 二 三世 二 于 向 可 
} 
} 
} 
:O00 oF 
'description': '''Request doesn't accept a JSON response' ' 


} 
} 
} 


/decks/{id}/hands 路 径 具 有 相似 的 结构 。 它 定义 了 查询 字符 串 中 所 有 可 用 的 参数 ， 还 定义 了 
各 种 响应 ，200 响应 包含 返回 的 纸牌 ，404 响应 表示 没有 找到 ID 值 。 
虽然 我 们 省 略 了 每 个 路 径 的 一 些 参数 细节 , 也 省 略 了 deck 结构 的 细节 , 但 是 仍然 可 以 对 RESTful 
API 进行 总 结 。 
口 swagger 键 必须 设置 为 2.0。 
D info 键 可 以 提供 大 量 信息 。 此 示例 仅 满足 最 低 要 求 。 
口 schemes 、host 和 basePath 字段 定义 用 于 该 服务 的 URL 的 一 些 常见 元 素 。 
口 consumes 字段 说 明 content -Type 首部 应 包括 哪些 内 容 。 
口 produces 字段 说 明 必 须 声明 的 请 求 Accept 首部 ， 以 及 响应 Content -Type 的 种 类 。 
口 paths 字段 标识 在 服务 器 上 提供 响应 的 所 有 路 径 。 本 例 显 示 了 /decks 和 /decks/ {id}/ hands 
路 径 。 
swagger3 () 函数 将 这 个 Python 对 象 转换 为 JSON 标 记 并 返回 。 该 函数 实现 了 一 个 swagger .json 
文件 的 下 载 ， 内 容 指定 了 RESTful API 服务 器 提供 的 资源 。 
2. 使 用 Swagger 规范 
在 客户 端 程序 中 ,使 用 简单 的 字面 值 构建 URL。 示 例如 下 : 


full_url = urllib.parse.ParseResult 
scheme="http", 
netloo="1270,0.185000", 
path="/dealer" + "/decks", 
params=None, 
query=None, 
fragment=None 






























































) 

示例 中 的 一 部 分 可 以 使 用 Swagger 规范 。 例如 , 可 以 使 用 specification['host'] 和 specifi- 
cation['basePath'] 来 奉 代 netloc 值 和 path 值 的 第 一 部 分 。Swagger 规范 的 这 种 用 法 可 以 提供 
一 定 的 灵活 性 。 

Swagger 规范 是 适合 设计 决策 的 工具 。 该 规范 的 真正 目的 是 驱动 API 的 自动 化 测试 ,通常 ,Swagger 
规范 包含 详细 示例 ， 这 些 示 例 有 助 于 阐明 编写 客户 端 应 用 程序 的 方法 。 
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12.6.5 “延伸 阅读 


口 关于 RESTful Web 服务 的 更 多 示例 ， 请 参阅 12.4 节 和 12.5 节 。 


12.7 解析 JSON 请 求 


许多 Web 服务 涉及 创建 新 的 持久 化 对 象 或 者 对 现 有 持久 化 对 象 进行 更 新 的 请 求 ,为 了 完成 这 些 操 
作 ， 应 用 程序 需要 来 自 客户 端的 输入 。 

RESTful Web 服务 通常 以 JSON 文档 的 形式 接受 输入 并 生成 输出 。 有 关 JSON 的 更 多 信息 ， 请 参 
阅 9.7 节 。 

如 何 从 Web 客户 端 解析 JSON 输入 ? 如何 简单 地 验证 输入 ? 


12.7.1 ”准备 工作 


本 实例 将 扩展 12.4 节 中 的 Flask 应 用 程序 ， 添加 用 户 注册 功能 ， 即 添加 一 个 请 求 纸牌 的 玩家 
( player )。 玩 家 是 一 个 涉及 基本 CRUD 操作 的 资源 。 

口 客户 端 可 以 向 /players 路 径 发 出 PosT 请 求 来 创建 新 玩家 , 包括 描述 玩家 的 文档 的 有 效 载 荷 
(payload )。 服 务 将 验证 文档 ， 如 果 文 档 有 效 ， 则 创建 一 个 新 的 、 持 久 的 Player 实例 。 响 应 
包括 分 配给 玩家 的 D。 如 果 文 档 无 效 ， 则 将 返回 一 个 详细 说 明 问 题 的 响应 。 

口 客户 端 可 以 向 /players 路 径 发 出 GET 请 求 来 得 到 玩家 的 列表 。 
口 客户 端 可 以 向 /players/<id> 路 径 发 出 GET 请 求 来 获取 一 个 特定 玩家 的 详细 信息 。 
口 客户 端 可 以 向 /players/<id> 路 径 发 出 PUT 请 求 来 更 新 一 个 特定 玩家 的 详细 信息 。 与 最 初 的 
POST 操作 一 样 ， 该 操作 必须 验证 文档 的 有 效 载荷 。 
口 客户 端 可 以 向 /players/<id> 路 径 发 出 DELETE 请 求 来 删除 一 个 玩家 的 信息 。 
与 12.4 节 相同 ， 本 实例 将 同时 实现 服务 的 客户 端 和 服务 器 端 。 服 务 器 端 将 处 理 基 本 的 PosT 操作 
和 GET 操作 。 我 们 将 PUT 操作 和 DELETE 操作 的 实现 作为 练习 留 给 读者 。 
本 实例 需要 一 个 JSON 验证 器 。 请 参阅 https://pypi.python.org/pypijsonschema/2.5.1， 该 库 特 别 好 
用 。Swagger 规范 验证 器 对 本 实例 也 很 有 帮助 ， 请 参阅 https://pypi.python.org/pypi/swagger-spec-validator。 
如 果 安 装 swagger-spec-validator 包 , 那么 也 会 安装 jsonschema 的 最 新 副本 。 安 装 过 程 如 
下 所 示 : 


MacBookPro-SLott:pyweb slott$ pip3.5 install swagger-spec-validator 
Collecting swagger-spec-validator 
Downloading swagger spec validator-2.0.2.tar.gz 

Requirement already satisfied (use --upgrade to upgrade): 
jsonschema in /Library/.../python3.5/site-packages 
(from swagger-spec-validator) 

Requirement already satisfied (use --upgrade to upgrade): 
setuptools in /Library/.../python3.5/site-packages 
(from swagger-spec-validator) 

Requirement already satisfied (use --upgrade to upgrade): 
six in /Library/.../python3.5/site-packages 
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(from swagger-spec-validator) 
Installing collected packages: swagger-spec-validator 
Running setup.py install for swagger-spec-validator ... done 
Successfully installed swagger-spec-validator-2.0.2 





本 实例 用 pip 命令 安装 swagger-spec-validator 包 , 安装 过 程 检测 到 jsonschema、setuptools 
和 six 已 经 安装 了 。 

安装 过 程 中 有 一 个 关于 使 用 --upgrade 的 提示 。 该 提示 可 以 帮助 我 们 使 用 类 似 pip install 
jsonschema --upgrade 的 命令 来 升级 包 。 如 果 jsonschema 的 版 本 低 于 2.5.0， 则 上 述 命令 是 必需 的 。 


























12.7.2 ”实战 演练 


本 实例 分 为 3 个 部 分 : Swagger 规范 、 服 务 器 端 和 客户 端 。 
1. Swagger 规范 
(1) Swagger 规范 的 概要 如 下 所 示 。 


specification = { 


'swagger': '2.0'， 
OY 于 
'title': '''Python Cookbook\nChapter 12, recipe 6.''', 
ETO 0 
}, 
'schemes': ['http'], 
host's E27y00. T5000 
'basePpath': '/dealer', 
'consumes': ['application/json'], 
'produces': ['application/json'], 
SACD" { 


"playeres's {er), 

"OLayers/ tld) Te 
'definitions': { 

'player: {..} 


} 


第 一 个 字段 是 RESTful Web 服务 的 基本 样板 代码 。paths 与 definitions 将 用 服务 的 URL 和 
模式 定义 来 填充 。 
(2) 验证 新 玩家 的 模式 定义 如 下 所 示 。 该 定义 应 当 包含 在 整个 规范 的 定义 内 。 


























'player': { 
'type': 'object', 
'properties': { 
'name': {'type': 'string'}, 
'email': {'type': 'string', 'format': 'email'}, 
'year': {'type': 'integer'}, 


' 必 Witter yp {Eye Wetrinogs; fommat .J El 
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整个 输入 文档 在 形式 上 被 描述 为 一 种 具有 类 型 的 对 象 。 该 对 象 有 4 个 属性 。 
口 Name: 名 称 字符 串 。 


口 Email: 具有 特定 格式 的 电子 邮件 地 址 字符 
口 Year: 年 份 数字 。 


口 Twitter: 给 定格 式 的 Twitter URL 字符 是 




















Uv 











某 些 定义 的 格式 是 JSON 模式 规范 语言 (JSON schema specification language ) 的 一 部 分 。email 
和 url 格式 使 用 广泛 。 完 整 的 格式 清单 还 包括 date-time、hostname、ipv4、ipv6 和 uri。 有 关 
定义 模式 的 详细 信息 ， 请 参阅 http://json-schema.org/documentation.html。 
(3) 用 于 创建 新 玩家 或 获取 整个 玩家 集合 的 players 路 径 如 下 所 示 。 
'/players': { 
"Ost st 
"parameters"s 工 


{ 























Sud 





'name': 'player', 
Im Od 
'schema': {'S$Sref': '#/definitions/player'} 
} 
dis 
'responses': { 
OO 
'403': {'description': 'Player is invalid or a duplicate'} 


{'description': 'Player created', }, 


} 
'get': { 
'responses': { 
'200': {'description': 'All of the players defined so far'}, 
} 
} 


该 路 径 定义 了 两 个 方法 








post 和 get。post 方法 有 一 个 player 参数 。 该 参数 是 请 求 体 ， 它 
遵循 定义 部 分 中 提供 的 玩家 模式 ( player schema )。get 方法 没有 任何 参数 或 响应 结构 的 形式 定义 。 
(4) 获取 特定 玩家 详细 信息 的 路 径 定义 如 下 所 示 。 


'/players/{id}': { 








'get': { 
'parameters': |[ 
{ 
iamer a Te, 
ao = a 
te "etlg, 
} 
]， 
'responses': { 
200n 
'description': 


'The details of a specific player', 
'schema': {'Sref': '#/definitions/player'} 
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'404': {'description': 'Player ID not found'} 


}; 
该 路 径 与 12.6 节 中 显示 的 某 路 径 类 似 。player 键 将 在 URL 中 提供 。 定 义 详细 说 明了 当 玩 家 ID 
有 效 时 的 响应 。 响 应 有 一 个 已 定义 的 模式 ， 它 还 使 用 了 定义 部 分 中 的 玩家 模式 定义 。 
个 规范 将 是 服务 器 端的 一 部 分 , 可 以 由 aaealer.route('/swagger.json') 路 由 中 定义 的 视 
图 函数 提供 。 创 建 一 个 包含 该 规范 文档 的 文件 通常 是 最 简单 的 方法 。 
2. 服务 器 端 
(1) 首先 ， 把 12.4 节 作 为 Flask 应 用 程序 的 模板 。 我 们 将 改变 视图 函数 。 


from flask import Flask, jsonify, request, abort, make_ response 
from http import HTTPStatus 


(2) 导入 其 他 需要 使 用 的 库 。 我 们 将 使 用 JSON 模式 来 验证 ， 还 将 计算 字符 串 的 散 列 值 作为 URL 
中 的 外 部 标识 符 。 


from jsonschema import validate 
from jsonschema.exceptions import ValidationError 
import hashlib 


(3) 创建 应 用 程序 和 玩家 数据 库 。 本 实例 将 使 用 一 个 简单 的 全 局 变量 。 较 大 的 应 用 程序 可 能 会 介 
用 适当 的 数据 库 服务 器 来 保存 这 些 信息 。 

dealer = Flask('dealer') 

players = {} 

(4) 定义 发 送 到 整个 players 集合 的 路 由 。 


@Qdealer.route('/dealer/players', methods=['POST']) 


(5) 定义 解析 输入 文档 、 验 证 内 容 并 创建 持久 化 player 对 象 的 函数 。 


def make player(): 
document = request.json 
player_schema = specification['definitions'] ['player'] 
trys 
validate(document, player_schema) 
except ValidationError as ex: 
return make_response (ex.message, 403) 
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id = hashlipb.md5 (document ['twitter'] .encode('utf-8')).hexdigest() 
if id in players: 
return make_response('Duplicate player', 403) 


players[id] = document 


response = make_responsel 
jsonify!( 
status='ok', 
信人 Ealeh 
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201 
) 


return response 
该 函数 遵循 常用 的 4 步 设计 。 
口 验证 输入 文档 。 模 式 被 定义 为 整个 Swagger 规范 的 一 部 分 。 
口 创建 唯一 的 键 。 该 键 是 从 数据 中 派生 的 。 我 们 也 可 以 使 用 uuia 模块 创建 唯一 的 键 。 
口 在 数据 库 中 保存 新 文档 。 在 本 例 中 , 该 步 又 只 是 一 条 单独 的 语句 players [id] = document。 
该 步骤 遵循 的 思想 是 ，RESTful API 围绕 已 提供 功能 的 完整 实现 的 类 和 函数 进行 构建 。 
口 构建 一 个 响应 文档 。 
(6) 定义 运行 服务 器 的 主 程序 。 


在 下 marme == " main 
dealer.run(use_reloader=True, threaded=False) 


可 以 添加 其 他 方法 来 查看 多 个 玩家 或 单个 玩家 。 这些 方法 将 遵循 12.6 节 的 基本 设计 。 下 一 节 将 研 
究 这 些 方 法 。 

3. 客户 端 

该 部 分 类 似 于 12.6 节 中 的 客户 端 模块 。 

(1) 导入 使 用 RESTful API 的 基本 模块 。 


import urllib.request 
import urllib.parse 
import json 


(2) 通过 手动 创建 ParseResult 对 象 ， 分 块 定义 URL。 该 URL 随后 将 构建 为 单个 字符 串 。 


full url = urllib.parse.ParseResult( 
scheme="http", 
netelOCs L200 S000Y,; 
path="/dealer" + "/players", 
params=None, 
query=None, 
fragment=None 

























































































) 


(3) 创建 一 个 可 以 序列 化 为 ISON 文档 的 对 象 并 发 送 给 服务 器 。 参 考 swagger .json 定义 该 文档 
的 模式 。document 将 包括 所 需 的 4 个 属性 。 


document = { 
'name': 'Xander Bowers', 
‘'email': 'x@example.com', 
'year': 1985, 
'twitter': 'https://twitter.com/PacktPub' 








} 
(4) 组 合 URL、 文 档 、 方 法 和 首部 来 创建 完整 的 请 求 。 使 用 urlunparse () 将 URL 的 各 个 部 分 整 
合 为 单个 字符 串 。content -Type 首部 说 明 将 为 服务 器 提供 JSON 标记 格式 的 文档 。 


request 
url 














urllib.request.Request( 
urllib.parse.urlunparse (full url), 
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method = "POST"， 
headers = { 
'Accept': 'application/json', 
'Content-Type': 'application/json;charset=utf-8', 


i 
data = json.dumps (document) .encode('utf-8') 
) 


我 们 用 了 charset 选项 ， 该 选项 指定 了 从 Unicode 字符 串 创建 字 节 的 特定 编码 。 由 于 utf-8 编 
码 是 默认 值 ， 因 此 该 选项 不 是 必须 提供 的 。 该 示例 说 明了 如 何 为 极 少数 使 用 不 同 编码 的 情况 提供 替代 
方案 。 

(5) 发 送 请 求 并 处 理 response 对 象 。 为 了 便于 调试 ， 需 要 打印 状态 和 首部 信息 。 一 般 来 说 ， 只 
需要 确定 状态 是 预期 的 201 CREATED。 


with ur1l1ib.reduest .urlopen (redquest) as response: 













































































# print (response.status) 

assert response.status == 201 

# print (response.headers) 

document = json.loads (response.read() .decode ("utf-8")) 


print (document) 
assert document['status'] == 'OK' 
id = document['id'] 


检查 响应 文档 ， 确 保 文档 包含 两 个 预期 的 字段 。 
还 可 以 在 客户 端 中 包含 其 他 查询 。 比 如 ， 我 们 可 能 想 检 索 所 有 玩家 或 一 个 特定 的 玩家 。 这 些 查 询 
都 将 遵循 12.6 节 中 的 设计 。 


12.7.3 ”工作 原理 


Flask 自动 检查 入 站 的 文档 并 对 它们 进行 解析 。 仪 使 用 request .json 就 可 以 充分 利用 Flask 内 置 
的 自动 JSON 解析 功能 。 
如 果 输 入 不 是 JSON， 那 么 Flask 框架 将 返回 400 BAD REQUEST 响应 。 当 服务 器 应 用 程序 引用 请 
求 的 json 属性 时 ， 就 会 出 现 这 种 问题 。 可 以 使 用 try 语句 捕获 400 BAD REQUEST 响应 对 象 并 对 其 
进行 修改 ， 或 者 返回 一 个 不 同 的 响应 。 
我 们 使 用 jsonschema 包 验 证 了 输入 文档 。 该 包 将 检查 JSON 文档 的 一 些 特征 。 
口 检查 JSON 文档 的 整体 类 型 是 否 匹 配 模 式 的 整体 类 型 。 在 本 例 中 , 模式 需要 一 个 对 象 , 这 个 对 
象 是 一 个 UJJSON 结构 。 
口 对 于 在 模式 中 定义 并 在 文档 中 出 现 的 每 个 属性 ， 确 认 文 档 中 的 值 是 否 匹 配 模式 定义 。 如 果 匹 
配 ,， 则 意味 着 该 值 符合 已 定义 的 某 种 JSON 类 型 。 如 果 还 有 其 他 验证 规则 ， 比 如 格式 、 范 围 规 
范 或 数组 的 元 素数 量 ， 那 么 该 包 也 会 检查 这 些 约束 。 这 种 检查 会 递归 地 遍历 模式 的 所 有 级 别 。 
口 如 果 有 必 备 的 字段 列表 ， 则 该 包 会 检查 这 些 字段 是 否 存 在 于 文档 中 。 
本 实例 简化 了 模式 的 细节 ， 省 略 了 一 个 常见 特征 ， 即 必 备 属性 的 列表 。 我 们 还 可 以 提供 更 详细 的 
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属性 说 明 。 例 如 ，year 应 该 有 一 个 最 小 值 1900。 

本 实例 也 简化 了 数据 库 更 新 处 理 。 在 某 些 情况 下 ， 数 据 库 插 和 人 可 能 涉及 更 复杂 的 过 程 ， 例 如 使 用 
数据 库 客户 端 连 接 来 执行 更 改 数据 库 服务 器 状态 的 命令 。 在 理想 情况 下 ， 将 数据 库 处 理 保持 在 最 低 限 
度 ， 特 定 于 应 用 程序 的 详细 信息 通常 从 单独 的 模块 导入 ， 并 以 RESTful API 资源 呈现 。 

在 更 大 的 应 用 程序 中 ， 可 能 会 用 player_db 模块 来 包含 所 有 玩家 的 数据 库 处 理 。 该 模块 将 定义 
所 有 类 和 函数 ， 通 常会 为 player 对 和 象 提供 详细 的 模式 定义 。RESTful API 服务 将 导 和 人 这些 类 、 据 数 
和 模式 规范 ， 并 将 它们 暴露 给 外 部 用 户 。 


12.7.4 补充 知识 


Swagger 规范 允许 包含 响应 文档 的 示例 。 这 种 功能 通常 具有 以 下 优点 。 
口 从 作为 一 部 分 响应 的 示例 文档 开始 设计 是 很 常见 的 。 编 写 描述 文档 的 模式 规范 可 能 很 困难 ， 
但 是 模式 验证 功能 有 助 于 确保 规范 匹配 文档 。 
口 规范 编写 完成 之 后 ， 下 一 步 是 编写 服务 器 端 程序 。 使 用 模式 示例 文档 有 助 于 单元 测试 。 
口 对 于 Swagger 规范 的 用 户 ， 可 以 使 用 响应 的 具体 示例 来 设计 客户 端 ， 并 为 客户 端 程序 编写 单 
元 测试 。 

可 以 使 用 以 下 代码 来 确认 服务 器 是 否 具 有 有 效 的 Swagger 规范 。 如 果 抛 出 异常 ， 则 说 明 没有 Swagger 

文档 或 文档 不 符合 Swagger 模式 。 


from swagger_spec_validator import validate_ spec _ url 
validate_spec url('http://127.0.0.1:5000/dealer/swagger.json') 
































































































































1. Location 首部 

201 CREATED 响应 包含 一 个 具有 某 些 状态 信息 的 小 文档 。 状 态 信息 包括 分 配给 新 创建 的 记录 的 键 。 

201 CREATED 响应 通常 还 包含 一 个 附加 的 Location 首部 。 该 首部 将 提供 可 用 于 恢复 已 创建 文 
档 的 URL。 对 于 这 个 应 用 程序 , Location 将 是 一 个 类 似 于 这 样 的 URL: http://127.0.0.1:5000/ 
dealer/players/75flbfbda3a8492b74a33ee28326649c。 

Location 首部 可 由 客户 端 保 存 。 完 整 的 URL 要 比 从 URL 模板 和 值 创建 URL 更 简单 。 

服务 器 端 可 以 通过 以 下 方法 来 构建 Location 首部 : 

response.headers['Location'] = url_ for('get player', id=str (id)) 

上 述 代 码 依 赖 于 Flask 的 url_for () 函数 。 这 个 函数 接受 视图 函数 的 名 称 以 及 任何 来 自 URL 路 
径 的 参数 , 然后 使 用 视图 函数 的 路 由 来 构建 一 个 完整 的 URL。 这 将 包括 当前 正在 运行 的 服务 器 的 所 有 
信息 。 插 入 首部 后 ， 返 回 response 对 象 。 

2. 附加 资源 

服务 器 应 该 可 以 响应 玩家 列表 。 将 数据 转换 成 大 型 SON 文档 的 最 小 实现 如 下 所 示 : 2 


@dealer.route('/dealer/players', methods=['GET']) 
def get_players(): 
response = make_response(jsonify (players)) 
return response 
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更 复杂 的 实现 将 支持 Stop 和 $skip 查询 参数 对 玩家 列表 进行 分 页 。 男 外 ，$ filter 选项 有 助 


于 实现 对 玩家 子 集 的 搜索 。 








除了 查询 所 有 玩家 之 外 ， 还 需要 实现 返回 单个 玩家 的 方法 。 这 种 视图 函数 通常 也 很 简单 ， 如 下 


所 示 : 


@dealer.route('/dealer/players/<id>', 


def get_player (id): 
if id not in players: 





methods=['GET']) 


return make response("{} not found".format (id), 404) 


response = make_responsel 


jsonify( 
players [id] 
) 
) 


return response 


该 函数 将 确认 给 定 的 ID 是 否 是 数据 库 中 正确 的 键 值 。 如 果 数 据 库 中 没有 该 键 ， 则 将 数据 库 文档 


转换 为 JSON 标记 并 返回 。 
3. 查询 特定 玩家 
在 数据 库 中 查找 特定 值 所 需 的 客 
(1) 首先 ， 为 特定 玩家 创建 URL。 








户 端 处 到 


过 程 如 下 。 





id = '75flibfbda3a8492b74a33ee28326649c' 
full_ url = urllib.parse.ParseResult( 


scheme="http", 
NetLloce .i200 L5000™., 


path="/dealer" + "/players/{id}".format (id=id), 


params=None, 

query=None, 

fragment=None 
) 














通过 多 条 信息 构建 URL。URL 是 根据 单独 的 字段 创建 的 ParseResult 对 象 。 
(2) 然后 ， 根 据 URL 创建 一 个 request 对 象 。 





request 
url 
method = "GET", 
headers = { 


ll 


urllib.request.Request( 
urllib.parse.urlunparse (full_ url), 


'Accept': 'application/json', 


} 
) 


G) 得 到 reauest 对 象 后 ， 发 出 请 求 并 检索 响应 。 我 们 需要 


就 可 以 解析 响应 体 来 获取 描述 给 定 玩 家 的 JSON 文档 了 。 


with urllib.request.urlopen (request) 


assert response.status == 200 
player= json.loads (response.read() .decode ("utf-8")) 


print (player) 


as response: 


人 





生 

















认 响 应 状态 是 否 为 200。 如 果 是 ， 
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如 果 玩 家 不 存在 ， 则 urlopen () 函数 将 抛 出 403 NOT FOUND 异常 。 可 以 用 一 个 try 语句 包 囊 
上 述 代码 来 捕获 403 NOT FOUND 异常 。 

4. 异常 处 理 

下 面 是 所 有 客户 端 请 求 的 常用 模式 。 这 段 代码 包含 明确 的 try 语句 。 


try: 














with urllib.request.urlopen(request) as response: 
# print (response.status) 
assert response.status == 201 
# print (response.headers) 
document = json.loads (response.read() .decode ("utf-8")) 


# 在 此 处 处 理 文 档 


except urllib.error.HTTPError as ex: 
print (ex.status) 
print (ex.headers) 
print (ex.read()) 


实际 上 ， 常 见 的 异常 有 两 类 。 

口 低级 异常 : 这 类 异常 表示 无 法 联系 服务 器 。connectionError 异常 是 这 种 低级 异常 的 常见 示 

例 ， 它 是 osError 异常 的 子 类 。 

口 来 自 urllib 模块 的 HTTPError 异常 : 该 类 异常 意味 着 整个 HITP 协议 正常 ， 但 来 自 服务 需 
的 响应 不 是 代表 成 功 的 状态 码 。 代 表 成 功 的 状态 码 的 值 一般 在 200 到 299 的 范围 内 。HTTPError 
异常 具有 与 正常 的 响应 相似 的 属性 ,包括 状态 、 首 部 和 消息 体 。 

在 某 些 情况 下 ，HTTPError 异常 可 能 是 服务 器 的 几 个 预期 响应 之 一 。 该 异常 可 能 并 不 表示 存在 错 

误 或 问题 ， 而 只 是 另 一 个 有 意义 的 状态 码 。 





















































12.7.5 “延伸 阅读 


口 有 关 URL 处 理 的 其 他 示例 ， 请 参阅 12.6 节 。 
口 有 关 查 询 字 符 串 处 理 的 其 他 示例 ， 请 参阅 12.5 节 。 
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安全 是 人 们 普遍 关注 的 话题 。 应 用 程序 的 每 个 部 分 都 有 安全 考虑 。 各 部 分 的 安全 性 实现 涉及 两 个 
密切 相关 的 问题 。 
口 认证 (authentication ): 客户 端 必须 提供 一 些 证 明 身 份 的 证 据 。 这 可 能 涉及 签名 的 证 书 ， 也 可 
能 涉及 和 凭据， 比如 用 户 名 和 密码 ， 还 可 能 涉及 多 个 因素 ， 例 如 用 户 应 该 可 以 访问 的 手机 短信 
内 容 。Web 服务 器 必须 检验 认证 信息 。 
口 授权 (authorization ): 服务 器 必须 定义 权限 范 目 
须 被 定义 为 授权 组 的 成 员 。 





















































rey 





， 并 将 其 分 配给 用 户 组 。 此 外 , 单独 的 用 户 必 
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虽然 技术 上 可 以 实现 在 单独 用 户 的 基础 上 定义 授权 ,但 是 由 于 网 站 或 应 用 程序 的 不 断 发 展 ， 这 
种 方法 往往 变 得 非常 不 方便 。 基 于 组 定义 安全 性 更 简单 。 在 某 些 情况 下 ， 一 个 组 (最初 ) 只 能 有 一 
个 用 户 oO 


到 视图 函数 的 连接 定义 了 任何 特定 月 

用 HTTP Authorization 首部 提供 认 这 

为 首部 的 名 称 不 能 准 古 目 

户 端 向 Web 服务 器 提供 认证 信息 的 方式 有 很 多 种 。 以 下 是 一 些 备 选 方案 。 

口 证 书 : 加 密 证 书 ， 包 括 数字 签名 以 及 对 证 书 颁 发 机 构 ( certificate authority，CA ) 的 引 月 
些 加 密 证 书 由 安全 套 接 字 层 ( secure socket layer，SSL ) 交换 。 在 某 些 环境 中 ， 客 


器 端 都 必须 具有 用 于 相互 验证 的 证 

















应 用 软件 必须 实施 授权 决策 。 








令 人 困惑 的 是 ，HTTP 标准 使 








地 反映 其 


~ 























从 Web 客 

















端 不 提供 ， 这 对 于 https 








短信 进一步 确认 用 














对 于 Flask， 授 权 可 以 是 每 个 


日 户 可 用 的 资源 。 



































的 。 





























BB。 在 其 
协议 很 常见 。 服 务 带 端 不 验 订 












































视图 


FE 客 


日 户 名 和 密码 来 识别 上 





























更 OpenID 提供 者 返回 通 





















































他 环境 中 ， 服 务 器 端 提供 训 
户 端的 证 书 
口 静态 API 密 钥 或 令 牌 : Web 服务 可 以 提供 一 个 简单 的 固定 密 钥 。 使 用 这 种 方式 必须 保护 好 密 
钥 ， 不 能 够 轻易 外 泄 ， 就 像 密码 一 样 。 
口 用 户 名 和 密码 : Web 服务 器 可 以 通过 月 
户 身份 。 
口 第 三 方 身份 验证 : 这 会 涉及 使 
种 方法 包含 一 个 回调 URL， 以 
此 外 , 还 有 一 个 问题 一 一 如 何 将 用 户 信息 力 
提供 一 些 最 简单 的 联系 信 ， 


日 户 。 我 们 也 可 以 使 有 





用 OpenID 等 服务 。 有 关 详 细 信 息 ， 请 
知 信息 。 
0 载 到 Web 服务 器 中 。 某 些 网 站 基于 自助 式 服务 , 用户 
息 ， 并 被 授予 对 内 容 的 访问 权限 。 


函数 的 一 部 分 。 从 个 人 到 组 和 组 








FE 凭据。 这 可 能 导致 混乱 ， 因 








。 这 
户 端 和 服务 


3 














F 书 的 真实 性 ， 但 客 
F 书 。 








有 电子 邮件 或 





参阅 http://openid.net。 这 
















































































在 许多 情况 下 ， 网 站 不 支持 自助 式 服务 。 在 允许 访问 之 前 ， 可 能 需要 仔细 审查 用 户 。 访 问 控制 可 
能 涉及 访问 数据 或 服务 的 合同 和 费用 。 在 某 些 情况 下 ， 企 业 会 为 其 员工 购买 许可 证 ， 提 供 能 够 访问 给 
定 Web 服务 套件 的 有 限 用 户 列 表 。 

本 实例 将 演示 一 个 提供 自助 式 服务 的 应 用 程序 。 该 应 用 程序 并 没有 定义 用 户 集 ， 这 意味 着 必须 提 
供 创建 不 需要 任何 身份 验证 的 新 用 户 的 一 个 Web 服务 ， 其 他 所 有 服务 都 需要 正确 验证 用 户 。 
12.8.1 准备 工作 

本 实例 将 使 用 Authorization 首部 来 实现 基于 HTTP 的 认证 。 该 主题 有 两 个 变 体 。 


本 认证 


间 的 流量 。 





























预期 的 散 列 值 。 如 与 
这 种 方法 不 需要 SSL。 
Web 服务 器 经 常 使 


























口 HTTP 摘要 认证 : 使 用 更 复杂 上 
尼 散 列 值 匹配 ， 则 使 











的 月 


















































。 这 是 RESTful API 处 理 


,的 








用 SSL 来 确定 认证 的 真实 性 。 因 为 这 种 技术 非常 普遍 , 所 以 可 以 使 
个 巨大 的 简化 ， 因 为 每 个 请 求 将 包含 Authorization 首部 ， 





口 HTTP 基本 认证 : 使 用 简单 的 用 户 名 和 密码 字符 串 。 依 赖 于 SSL 来 加 密 客 户 端 和 服务 器 端 之 





上 户 名 、 密 码 以 及 服务 器 提供 的 随机 数 的 散 列 值 。 服务 器 计算 
用 相同 的 字 节 计算 散 列 值 ， 而 有 





[密码 肯定 是 有 效 的 。 








用 HTTP 基 
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并 且 在 客户 端 和 服务 器 端 之 间 使 用 安全 套 接 字 。 

1. 配置 SSL 

获取 和 配置 证 书 的 详细 信息 不 属于 Python 编程 的 范畴 。OpenSSL 包 提 供 了 创建 可 用 于 配置 安全 
服务 器 的 自 签名 证 书 工具 。 例 如 ，Comodo 集团 和 赛 门 铁 克 等 证 书 颁 发 机 构 提 供 操作 系统 供应 商 以 及 
Mozilla 基金 会 广泛 认可 的 受信 证 书 。 

使 用 OpenSSL 创建 证 书包 括 两 个 部 分 。 

(1) 创建 私 钥 文 件 。 通 常 使 用 操作 系统 级 的 命令 完成 ， 如 下 所 示 : 


slott$ openssl genrsa 1024 > ssl.key 

Generating RSA private key, 1024 bit long modulus 
A 十 十 十 十 十 十 

站 十 十 十 十 十 十 

e is 65537 (0x10001) 


openssl genrsa 1024 命令 创建 了 一 个 私 钥 文 件 ， 该 文件 的 文件 名 为 ssl.key。 
(2) 使 用 私 钥 文件 创建 一 个 证 书 。 该 步骤 的 一 种 操作 方法 如 下 所 示 : 


slott$ openss1 req -new -x509 -nodes -Shal -days 365 -key ssl.key > 
ssl.cert 


该 步 又 要 求 操作 者 输入 将 被 放 人 证 书 请 求 的 信息 。 需 要 输入 的 内 容 被 称 为 识别 名 称 ( distinguished 
name，DN )。 需 要 输入 的 字段 很 多 ， 但 是 有 一 些 字段 可 以 不 填 。 某 些 字 段 有 默认 值 。 如 果 输 入 . ， 则 
该 字段 将 留 空 。 

Country Name (2 letter code) [AU] :US 

State or Province Name (full name) [Some-State] :Virginia 

Locality Name (eg, city) []: 

Organization Name (eg, company) [Internet Widgits Pty Ltd] :It May Be AHack 

Organizational Unit Name (eg, section) []:Common Name (e.g. server 

FQDN or YOUR name) [] :Steven F. Lott 

Email Address []: 




















































































































openssl req -new -x509 -nodes -shal -days 365 -key ssl.key 命令 创建 了 保存 在 ssl.cert 
中 的 私有 证 书 文件 。 该 证 书 是 私人 签名 的 ,没有 CA。 它 只 提供 有 限 的 功能 集 。 

这 两 个 步骤 创建 了 两 个 文件 : ssl.cert 和 ssl.key。 我 们 将 在 随后 的 过 程 中 使 用 这 两 个 文件 来 保护 服 
务 骨 。 

2. 用 户 和 凭据 

为 了 能 够 让 用 户 提供 用 户 名 和 密码 ， 需 要 将 这 些 信 息 存 储 在 服务 器 上 。 关 于 用 户 凭据 有 一 个 非常 
重要 的 规则 。 


C3 决 不 存储 凭据 。 决 不 ! 


显然 ,存储 明文 密码 是 安全 性 灾难 的 一 个 诱因 。 甚 至 不 能 存储 加 密 的 密码 。 当 用 于 加 密 密 码 的 密 
钥 被 破坏 时 ， 所 有 用 户 的 身份 信息 将 丢失 。 
如 果 不 存 储 密码 ， 那 么 如 何 检查 用 户 密码 ? 
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解决 方案 是 用 存储 散 列 值 替 代 存 储 密码 。 当 首次 创建 密码 时 ， 服 务 器 将 保存 散 列 值 。 此 后 ， 每 次 
用 户 输入 都 将 进行 散 列 , 并 与 保存 的 散 列 值 进行 比较 。 如 果 两 个 散 列 值 匹配 , 那么 密码 一 定 是 正确 的 。 
最 重要 的 是 从 散 列 值 中 恢复 密码 极端 困难 。 

创建 密码 的 初始 散 列 值 有 3 个 步骤。 

(1) 创建 一 个 随机 的 salt 值 。 通 常 ， 使 用 来 自 os .urandom() 的 16 字 节 的 值 。 

(2) 使 用 salt 和 密码 创建 一 个 hash 值 。 一 般 来 说 ， 该 步骤 需要 用 到 hashlipb 模块 ， 具 体 地 说 
是 hashlip.pbkdf2_hmac () 因数 。 该 步骤 还 需要 用 到 一 个 特定 的 摘要 算法 ， 例 如 md5 或 sha224。 

(3) 保存 摘要 名 称 、salt 和 散 列 字 节 。 这 些 值 通常 被 组 合成 一 个 类 似 mda5ssaltshash 的 字符 
mq5 是 一 个 字面 量 。$ 分 隔 算法 名 称 、salt 和 hash 值 。 

当 需 要 检查 密码 时 ， 将 遵循 类 似 下 面 这 样 的 过 程 。 

(1) 给 定 用 户 名 ,找到 保留 的 散 列 字符 串 。 散 列 字 符 串 是 一 个 由 摘要 算法 名 称 、 保 留 的 salt 值 和 
散 列 字 节 3 部 分 组 成 的 结构 。 字 符 串 中 的 各 元 素 由 $ 分 隔 。 

(2) 使 用 保留 的 salt 值 和 用 户 提 供 的 密码 创建 一 个 经 过 计算 得 到 的 hash 值 。 

(3) 如 果 计 算得 到 的 散 列 字 节 与 保留 的 散 列 字 节 匹 配 ， 则 摘要 算法 与 salt 匹配 。 因 此 ,密码 也 一 
定 是 匹配 的 。 

本 实例 将 定义 一 个 简单 的 类 来 保留 用 户 信息 以 及 散 列 密码 。 可 以 使 用 Flask 的 g 对 象 在 请 求 处 理 
过 程 中 保存 用 户 信息 。 

3. Flask 视图 函数 装饰 器 

人 处理 认证 检查 的 方法 有 多 种 。 

口 如 果 每 个 路 由 具有 相同 的 安全 性 要 求 ， 那 么 可 以 使 用 eaealer.before_request 来 验证 所 

有 的 Authorization 首部 。 还 需要 为 /swagger .json 路 由 和 自助 式 服务 路 由 提供 一 些 异 常 
处 理 ， 自 助 式 服务 路 由 允许 未 经 授权 的 用 户 创建 新 的 用 户 名 和 密码 凭据 。 

口 当 某 些 路 由 需要 认证 ， 而 某 些 路 由 不 需要 时 ， 为 需要 认证 的 路 由 引入 一 个 装饰 器 能 够 很 好 地 

解决 问题 。 

Python 装饰 器 是 一 个 函数 ， 它 通过 包装 另 一 个 函数 来 扩展 该 函数 的 功能 。 核 心 技术 如 下 所 示 : 

from functools import wraps 

def decorate (function): 

@wraps (function) 

def decorated function(*args, **kw): 
# 在 此 处 编写 function 被 装饰 之 前 的 处 理 
result = function(*args, **kw) 
# 在 此 处 编写 function 被 装饰 之 后 的 处 理 
return. result 

return decorated function 


装饰 器 的 思想 就 是 把 被 装饰 的 函数 替换 为 一 个 给 定 的 函数 。 本 例 用 一 个 新 的 函数 decoratedqd 


function 替换 function。 在 被 装饰 函数 的 函数 体内 执行 原始 的 函数 。 一 些 处 理 可 以 在 孔 数 被 装饰 
之 前 完成 ， 一 些 处 理 则 可 以 在 函数 被 装饰 之 后 完成 。 
在 Flask 的 上 下 文中 ， 把 装饰 需 放 在 edaealer .route 装饰 器 之 后 。 
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@dealer..route('/path/to/resource.') 
@decorate 
def view_ function(): 

return make_ result('hello world', 200) 


我 们 用 eqecorate 装饰 器 包装 了 view_function()。 装 饰 侨 可 以 检查 认证 信息 ， 确 保 用 户 是 
已 知 的 。 我 们 可 以 在 这 些 函 数 中 进行 各 种 各 样 的 处 理 。 





























12.8.2 ”实战 演练 


本 实例 分 为 4 个 部 分 : 

口 定义 User 类 ; 

口 定义 视图 装饰 带 ; 

口 创建 服务 器 ; 

口 创建 示例 客户 端 。 

1. 定义 User 类 

该 类 定义 提供 了 定义 User 对 象 的 示例 。 
(1) 导入 创建 和 验证 密码 所 需 的 模块 。 


import hashlib 
import os 
import base64 


其 他 有 用 的 模块 还 包括 json， 这 样 User 对 象 就 可 以 正确 地 序列 化 了 。 

(2) 定义 User 类 。 

class User: 

(3) 由 于 我 们 将 改变 密码 生成 和 验证 的 某 些 环节 ， 因 此 提供 两 个 常量 作为 总 体 类 定义 的 一 部 分 。 


'sha384' 
100000 
































DIGEST 
ROUNDS 
我 们 将 使 用 SHA-384 摘要 算法 。 该 算法 提供 了 64 字 节 的 摘要 。 我 们 还 将 使 用 PBKDF2 ( Password- 
Based Key Derivation Function 2 ) 算法 迭代 100 000 次。 
(4) 大 多 数 情 况 下 ， 都 可 以 通过 JSON 文档 创建 用 户 。JSON 文档 会 是 一 个 可 以 使 用 ** 转 换 为 关键 
字 参 数值 的 字典 。 
def __init_ _(self, **document): 
self.name = document['name'] 
self.year = document['year'] 
self.email = document['email'] 


self.twitter = document ['twitter'] 
self.password = None 


请 注意 ， 我 们 不 希望 直接 设置 密码 ， 而 是 会 将 设置 密码 与 创建 用 户 文档 分 开 。 
我 们 省 略 了 其 他 授权 细节 ， 例 如 用 户 所 属 的 组 列表 ， 还 省 略 了 一 个 显示 需要 更 改 密码 的 指示 器 。 
(5) 定义 设置 密码 hash 值 的 算法 。 
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def set_password(self, password): 


salt = os.urandom(30) 
hash = hashlib.pbkdf2_hmac( 
self.DIGEST, password.encode('utf-8'), salt, self.ROUNDS) 
self.password = '$'.joint( 
[self .DIGEST, 
base64.urlsafe_b64encode (salt) .decode('ascii'), 
base64.urlsafe_b64encode (hash) .decode('ascii') 
] 
) 











我 们 使 用 os .urandom() 构 建 了 一 个 随机 salt。 然 后， 使 用 给 定 的 摘要 算法 、 密 码 和 salt 构 


建 了 完整 
请 注 
字 节 。 


我 们 使 用 摘要 算法 名 称 、salt 和 编码 过 的 hasnh 值 构建 了 一 个 字符 上 











的 nash 值 。 最 后 ,使 用 了 可 配置 的 迭代 次 数 。 























意 , 散 列 计算 以 字 节 而 不 是 Unicode 字符 为 单位 。 我 们 已 经 使 用 utf-8 编码 将 密码 编码 为 了 











， 还 使 用 了 URL 安全 的 


Uv 














base64 编码 字 节 ， 以 便 可 以 轻松 显示 完整 的 密码 散 列 值 。 密 码 散 列 值 可 以 保存 在 任何 类 型 的 数据 库 


卫 











， 因 为 它 仅 使 用 A-z、a-z、0-9、- 和 _ 字符。 








请 注意 ，urlsafe_b64encode() 创 建 了 一 个 串 字 节 值 。 必 须 解 码 才 能 查看 它们 代表 的 Unicode 
字符 。 这 里 使 用 了 ASCII 编码 方案 ， 因 为 base64 只 使 用 64 个 标准 的 ASCII 字符 。 
(6) 定义 检验 密码 散 列 值 的 算法 。 


def 











check_password(self, password): 
digest, Lb64_salt, b64 expected hash = self.password.split('s$') 
salt = base64.urlsafe_b64decode (b64_salt) 
expected hash = base64.urlsafe_b64decode(b64 expected_ hash) 
computed_ hash = hashlib.pbkdf2_ hmac( 

digest, password.encode('utf-8'), salt, self.ROUNDS) 
return computed hash == expected hash 


我 们 已 经 把 密码 散 列 值 分 解 为 aigest、salt 和 expecteq_hash。 由 于 各 部 分 经 过 base64 编 
码 ， 因 此 必须 解码 来 恢复 原始 字 节 。 





请 注意 ， 散 列 计算 以 字 节 而 不 是 Unicode 字符 为 单位 。 我 们 已 经 使 用 utf-8 编码 将 密码 编码 为 
了 字 节 。 将 hashlib.pbkdqf2_hmac() 的 计算 结果 与 预期 结果 进行 比较 。 如 果 它 们 匹配 ,， 则 密码 一 定 


相同 。 






































该 类 的 使 用 方法 如 下 所 示 : 


>>> 
>>> 
>>> 
Fals 
>>> 
True 





details = {'name': 'xander', 'email': 'x@example.com', 
'year': 1985, 'twitter': 'https://twitter.com/PacktPub' } 
u = User(**details) 


u.set password('OpenSesame') 
u.check password('opensesame') 
e 

u.check password('OpenSesame') 





该 测试 用 例 可 以 包含 在 类 的 文档 字符 串 中 。 有 关 这 种 测试 用 例 的 更 多 信息 ， 请 参阅 11.2 季 。 
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在 更 复杂 的 应 用 程序 中 ,可 能 还 需要 定义 用 户 集合 。 通 常 使 用 某 种 数据 库 来 辅助 查找 用 户 和 插入 
新 用 户 。 

2. 定义 视图 装饰 器 

(1) 从 functools 中 导入 ewraps 装饰 器 。 该 步骤 有 助 于 定义 装饰 器 ， 确 保 新 函数 具有 从 正在 被 
装饰 的 函数 中 复制 的 原始 名 称 和 文档 字符 串 。 


from functools import wraps 


(2) 为 了 验证 密码 ， 需 要 base64 模块 分 解 Authorization 首部 的 值 ， 还 需要 使 用 全 局 对 象 g 
报告 错误 并 更 新 Flask 的 处 理 上 下 文 。 


import base64 
from flask import g 
from http import HTTPStatus 


(3) 定义 装饰 器 。 所 有 装饰 器 都 具有 这 个 基本 的 大 纲 。 下 一 步骤 将 替换 processing here 部 分 。 


def authorization required(view_ function): 
@wraps (view_function) 
def decorated_ function(*args, **kwargs): 
processing here 
return decorated_ function 


(4) 检查 首部 的 处 理 步 又 如 下 所 示 。 请 注意 ， 每 当 遇 到 问题 时 ， 都 会 以 401 UNAUTHORIZED 状态 
人 码 中 止 处 理 。 为 了 防止 黑客 试探 该 算法 ,即使 导致 问题 的 根本 原因 不 同 , 所 有 的 结果 也 都 是 相同 的 。 

if 'Authorization' not in request.headers: 
abort (HTTPStatus .UNAUTHORIZED) 

kind, data = request.headers['Authorization'] .split() 

if kind.upper() != 'BASIC': 
abort (HTTPStatus .UNAUTHORIZED) 

credentials = base64.decode (data) 

username, _, password = credentials.partition(':') 

If username not in user_database: 
abort (HTTPStatus .UNAUTHORIZED) 

if not user_dqatabase[username] .check_password (password): 
abort (HTTPStatus .UNAUTHORIZED) 

g.user = user_databaselusername] 

return view_ function(*args, **kwargs) 


另外 ， 还 必须 满足 以 下 条 件 : 

口 必须 存在 Authorization 首部 ; 

口 首部 必须 指定 基本 认证 ; 

口 值 必须 包含 使 用 base64 编码 的 username:password 字符 串 ; 
口 用 户 名 必须 是 已 注册 的 用 户 名 ; 

口 从 密码 计算 得 到 的 散 列 值 必须 匹配 预期 的 密码 散 列 值 。 

任意 一 个 条 件 不 满足 都 会 导致 401 UNAUTHORIZED 响应 。 

3. 创建 服务 器 
这 个 服务 器 与 12.7 节 中 的 服务 器 相似 ,但 是 做 了 一 些 重要 的 修改 。 
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(1) 创建 本 地 自 签 名 证 书 或 从 证 书 颁 发 机 构 购 买 证 书 。 本 实例 假设 这 两 个 文件 名 是 ssl.cert 和 


ssl.key。 





(2) 导入 构建 服务 器 所 需 的 模块 ， 还 需要 导入 User 类 定义 。 


from flask import Flask, jsonify, request, abort, url_for 
from ch12_r07_user import User 
from http import HTTPStatus 





(3) 添加 @authorization_required 装饰 需 定 义 。 


(4) 定义 一 个 没有 认证 的 路 由 。 该 路 由 将 月 


版 本 的 视 


















































任何 地 方 都 不 要 保存 明文 密码 ， 只 保留 散 列 值 。 


@dealer.route('/dealer/players', methods=['POST']) 


def 





make_player(): 
ts 
document = request.json 
except Exception as ex: 
# 如 果 文档 不 是 JSON， 可 以 在 此 处 微调 错误 消息 
raise 
player_schema = specification['definitions']['player'] 
A 
validate(document, player_schema) 
except ValidationError as ex: 
return make_response (ex.message, 403) 


id = hashlib.md5 (document ['twitter'] .encode('utf-8')).hexdigest() 
if idq in user_database: 
return make response('Duplicate player', 403) 


new_user = User(**document) 
new_user.set_password (document ['password']) 
user_database[id] = new_user 


response = make_responsel 
jsonify!( 
status='ok', 
id=id 
a 
201 
) 
response.headers['Location'] = url_ for('get player', id=str(id)) 
return response 


日 于 创建 新 用 户 。12.7 节 定 义 了 类 似 的 视 


图 函数 。 这 个 





图 函数 需要 使 用 接收 到 的 文档 中 的 密码 属性 。 该 属性 的 值 是 用 于 创建 散 列 值 的 明文 密码 。 在 





创建 用 户 后 ， 密 码 单独 设置 。 这 种 方法 遵循 一 些 应 用 程序 的 模式 ， 在 这 些 应 用 程序 中 ， 用 户 是 批 
量 加 载 的 。 该 处 理 过 程 可 能 为 每 个 用 户 提供 临时 密码 ， 临 时 密码 必须 立即 更 改 。 


请 注意 , 每 个 















































的 。 这 种 方式 极为 罕见 ， 但 它 有 极 大 的 灵活 性 。 











有 户 都 分 配 了 一 个 隐藏 ID。 分 配 的 ID 是 从 Twitter 用 户 名 的 十 六 进 制 摘要 计算 出 来 
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如 果 和 希望 用 户 自 己 选 择 用 户 名 ,那么 需要 将 用 户 名 添加 到 请 求 文档 中 。 我 们 将 使 用 用 户 名 替代 计 


算得 到 的 ID 值 。 
(5) 定义 一 个 需要 认证 的 路 由 。12.7 节 定 义 了 类 似 的 视图 函数 。 这 个 版 本 的 视图 函数 使 用 


eauthorization_redquired 装饰 髓 。 








@dealer.route('/dealer/players/<id>', methods=['GET']) 
Qauthorization required 
def get_ player (id): 
if id not in user_database: 
return make response("{} not found".format (id), 404) 


response = make_response ( 
jsonify( 
Dlayers [id] 
) 
) 


return, TeSDpOnNnse 


大 多 数 其 他 路 由 将 具有 类 似 的 @authorization_required 装饰 器 。 某 些 路 由 不 需要 身份 验证 ， 























比如 /swagger.json 路 由 。 
(6) ssl 模块 定义 了 ss1.SSLContext 类 。 可 以 使 用 先前 创建 的 自 签名 证 书 和 私 钥 文件 来 加 载 上 


下 文 ,然后 Flask 对 象 的 run () 方 法 使 用 上 下 文 。 这 样 URL 的 协议 方案 将 从 http://127.0.01:5000 
改 为 https://127.0.0.1:5000。 


import ssl 

ctx = ssl.SSLContext (ssl.PROTOCOL_ SSLV23) 
ctx.load cert chain('ssl.cert', 'ssl.key') 
dealer.run(use_reloader=True, threaded=False, ssl_context=ctx) 


4. 创建 示例 客户 端 
(1) 创建 一 个 可 以 使 用 自 签名 证 书 的 SSL 上 下 文 。 


import ssl 
Context = ssl.create _ default_context (ssl.Purpose.SERVER_AUTH) 


context.check_ hostname = False 
context .verify_ mode = ssl.CERT_NONE 


该 上 下 文 可 用 于 所 有 urllib 请 求 ， 它 将 忽略 证 书 上 缺少 的 CA 签名 。 
使 用 该 上 下 文 来 获取 Swagger 规范 的 方法 如 下 所 示 。 


with urllib.request.urlopen(swagger_request, context=context) as response: 
swagger = json.loads (response.read() .decode ("utf-8")) 
pprint (swagger) 


(2) 构建 用 于 创建 新 玩家 实例 的 URL。 请 注意 ,协议 方案 必须 使 用 https。 构 建 一 个 ParseResult 
对 象 来 分 别 显示 URL 的 各 个 部 分 。 


ful1_url = urllib.parse.ParseResult( 
scheme="https", 
noelOCET L200 S000Yy 
path="/dealer" + "/players", 
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params=None, 
query=None, 
fragment=None 
) 











(3) 创建 一 个 将 被 序列 化 为 ION 文档 的 Python 对 象 。 该 模式 与 12.7 节 中 的 示例 类 似 ， 包含 了 一 
个 额外 的 纯 文本 属性 。 


password.document = { 
'name': 'Hannah Bowers', 
'email': 'h@example.com', 
'year': 1987， 
'twitter': 'https://twitter.com/PacktPub', 
'password': 'OpenSesame' 


} 


因为 SSL 使 用 加 密 套 接 字 ， 所 以 发 送 这 样 的 纯 文本 密码 是 可 行 的 。 
(4) 组 合 URL、 文 档 、 方 法 和 首部 来 创建 完整 的 request 对 象 。 使 用 urlunparse() 将 URL 的 
各 个 部 分 整合 为 单个 字符 串 。content -Type 首部 说 明 将 为 服务 器 提供 JSON 标记 格式 的 文档 。 


request = urllib.request.Request( 
url = urllib.parse.urlunparse (full ur]l), 





























method ses TPOST™, 
headers = { 
'Accept': 'application/json', 
'Content-Type': 'application/json;charset=utf-8', 


}, 


data = json.dumps (document) .encode('utf-8') 
) 


(5) 发 送 请 求 ， 创 建 一 个 新 玩家 。 


tr 





with urllib.request.urlopen (request, context=context) 
# print (response.status) 
assert response.status == 201 
# print (response.headers) 


document = json.loads (response.read() .decode ("utf-8")) 


as response: 


print (document) 
assert document['status'] == 'ok' 
id = document['id'] 

except urllib.error.HTTPError as ex: 
print (ex.status) 
print (ex.headers) 
print (ex.read()) 





主流 程 接受 一 个 201 状态 响应 并 创建 用 户 。 响 应 包括 分 配 的 用 户 ID 和 一 个 宛 余 的 状态 码 。 
如 果 用 户 是 重复 的 ， 或 者 文档 不 匹配 模式 ， 则 抛 出 HTTPError 异常 。HTTPError 异常 可 能 会 显 
示 有 用 的 错误 消息 。 

(6) 使 用 分 配 的 ID 和 已 知 的 密码 创建 一 个 authorization 首部 。 


import base64 
credentials = 

































































base64.b64encode(b'75flbfbda3a8492b74a33ee28326649c:OpenSesame') 
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Authorization 首部 的 值 1 两 个 词组 成 : bp"BASIC " + credentials。BASIC 是 必需 的 。 
credentials 必须 是 一 个 base64 编码 的 username:password 字符 串 。 在 本 示例 中 ， username 
是 创建 用 户 时 分 配 的 特定 ID。 

(7) 查询 所 有 玩家 的 URL 如 下 所 示 。 我 们 创建 了 一 个 ParseResult 对 象 来 分 别 显示 URL 的 各 个 
部 分 。 

full url = urllib.parse.ParseResult( 
scheme="https", 
net EeGse L200 ToD000"s 


path="/dealer" + "/players", 
params=None, 























query=None, 
fragment=None 


) 
(8) 把 URL、 方 法 和 首部 组 合 为 一 个 request 对象。 该 对 象 包含 Authorization 首部 , 该 首部 
包含 用 户 名 和 密码 的 base64 编码 。 


request = urllib.request.Request( 
url = urllib.parse.urlunparse (full_url), 





method = "GET", 
headers = { 
'Accept': 'application/json', 


'Authorization': pb"BASIC " + credentials 


) 
(9) request 对 象 可 以 用 于 查询 服务 器 和 处 理 urllib 的 响应 。 


reduest .urlopen (fedquest ， context=context) as response: 
assert response.status == 200 
# print (response.headers) 
players = json.loads (response.read() .decode ("utf-8")) 


pprint (players) 


预期 状态 为 200。 响 应 应 该 是 一 个 包含 已 知 players 列表 的 JSON 文档 。 








12.8.3 ”工作 原理 


本 实例 包含 3 个 部 分 。 
口 使 用 SSL 提供 安全 通道 : 这 样 就 可 以 直接 传输 用 户 名 和 和 密码。 可 以 使 用 更 简单 的 HTTP 基本 
认证 方案 来 代替 HTTP 摘要 认证 方案 。Web 服务 可 以 使 用 的 其 他 认证 方案 还 有 很 多 种 ， 其 中 
































大 部 分 都 需要 SSL。 [ 
口 使 用 散 列 密码 的 最 佳 实践 : 以 任何 形式 保存 密码 都 有 安全 隐患 。 只 保存 经 过 计算 的 密码 散 列 

值 和 随机 salt 字符 串 ， 而 不 保存 纯 密码 ,甚至 加 密 密 码 。 这 样 就 可 以 保证 几乎 不 可 能 通过 逆向 

工程 从 散 列 值得 到 密码 。 
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口 使 用 装饰 器 : 用 于 区 分 需要 身份 验证 的 路 由 和 不 需要 身份 验证 的 路 由 。 装 饰 器 使 创建 Web 服 
务 具 有 很 大 的 灵活 性 。 
在 所 有 路 由 都 需要 认证 的 情况 下 ， 可 以 向 eaealer.before_request 添加 密码 验证 算法 。 这 将 
集中 所 有 的 认证 验证 ， 也 意味 着 需要 一 个 单独 的 过 程 来 定义 用 户 和 散 列 密码 。 
最 重要 的 是 ， 服 务 右 的 安全 检查 是 一 个 简单 的 GQauthorization_required 装饰 髓 ,很 容易 确 
定 它 适 用 于 所 有 视图 函数 。 


























12.8.4 ”补充 知识 


本 实例 的 服务 器 具有 相对 简单 的 授权 规则 。 
口 大 多 数 路 由 需要 一 个 合法 用 户 。 该 规则 可 以 通过 视图 函数 中 的 @authorization_required 
装饰 需 来 实现 。 
口 用 于 /dealer/swagger.json 的 GET 和 用 于 /dealer/players 的 POST 不 需要 合法 用 户 。 
该 规则 没有 通过 额外 的 装饰 器 来 实现 。 
在 许多 情况 下 , 我 们 有 一 个 关于 权限 、 组 和 用 户 的 复杂 配置 。 最 小 特权 原则 建议 用 户 应 该 分 成 组 ， 
每 个 组 都 拥有 尽 可 能 少 的 权限 来 完成 他 们 的 目标 。 
这 通常 意味 着 将 有 一 个 可 以 创建 新 用 户 但 没有 使 用 RESTful Web 服务 访问 权限 的 管理 组 。 用 户 可 
以 访问 Web 服务 ， 但 无 法 创建 任何 其 他 用 户 。 
实现 上 述 设计 需要 对 数据 模型 进行 多 次 更 改 。 应 该 定义 用 户 组 并 将 用 户 分 配给 这 些 组 。 


class Group : 
'''A collection of users. ' 
pass 























































































































aqministrators = Group () 
players = Group() 


然后 ， 可 以 扩展 User 的 定义 来 添加 组 成 员 。 


class GroupUser (User) : 
def __init_ _(self, *args, **Kkw): 
super(). init_ _(*args, **kw) 
self.groups = set() 


当 创 建 GroupUser 类 的 一 个 新 实例 时 ， 也 可 以 把 它们 分 配给 一 个 特定 的 组 。 


u = GroupUser (**document) 
u.groups = set (players) 


现在 可 以 扩展 装饰 器 来 检查 经 过 认证 的 用 户 的 groups 属性 。 带 参数 的 装饰 器 比 无 参数 装饰 器 更 


复杂 一 些 。 








def group_member (group_instance): 
def group_member_ decorator (view_ function): 
@wraps (view_function) 
def decorated view function(*args, **kw): 
# 检查 密码 并 确定 用 户 
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if group_instance not in g.user.groups: 
abort (HTTPStatus .UNAUTHORIZED) 
return view function(*args, **kw) 
return decorated view function 
return group_member_decorator 


带 参 数 的 装饰 器 通过 创建 一 个 包含 该 参数 的 具体 装饰 器 来 工作 。 具 体 的 装饰 器 group_member_ 
decorator 将 包装 给 定 的 视图 函数 。 上 述 代码 将 解析 Authorization 首部 ， 查找 GroupUser 实例 
并 检查 组 成 员 资格 。 

我 们 使 用 “和 # 检 查 密码 并 确定 用 户 ” 来 暂时 代替 检查 Authorization 首部 的 函数 。eauthorization_ 
requireg 装饰 器 的 核心 功能 需要 提取 为 独立 的 函数 ， 这 样 就 可 以 重用 了 。 

随后 就 可 以 使 用 该 装饰 器 了 ， 使 用 方法 如 下 所 示 : 


@dealer.route('/dealer/players') 
Qgroup_mempber (administrators) 
def make player(): 

etc. 


这 种 方法 缩小 了 每 个 视图 函数 的 权限 范围 

1. 创建 命令 行 界面 

在 创建 具有 特殊 管理 员 权 限 的 站 点 时 ， 经 常 需要 创建 初始 管理 员 用 户 。 然 后 ， 该 用 户 可 以 创建 
所 有 具有 非 管理 权限 的 用 户 。 这 种 操作 通常 由 管理 员 用 户 直接 在 Web 服务 器 上 运行 的 CLI 应 用 程序 
完成 。 
































， 保 证 了 RESTful Web 服务 遵循 最 小 特权 原则 。 
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Flask 通过 一 个 装饰 髓 来 支持 该 功能 ， 该 装饰 器 定义 了 必须 在 RESTful Web 服务 环境 之 外 运行 的 
命令 。 可 以 用 @dealer.cli.command() 定 义 一 个 从 命令 行 运 行 的 命令 。 例 如 ， 这 个 命令 可 以 加 载 初 
始 管 理 员 用 户 。 我 们 也 可 以 创建 一 个 命令 从 列表 中 加 载 用 户 。 
































getpass 模块 是 男 一 种 为 管理 员 用 户 提 供 初始 密码 的 方法 , 这 种 方法 不 会 在 终端 上 回 显 ， 因此 可 
以 确保 网 站 的 凭据 得 到 安全 的 处 理 。 

2. 构建 Authorization 首部 

依赖 于 HTTP 基本 Authorization 首部 的 Web 服务 可 以 通过 以 下 两 种 常见 方法 提供 支持 。 
口 使 用 凭据 构建 Authorization 首部 , 并 将 其 包含 在 每 个 请 求 中 。 为 此 , 需要 提供 username: 
password 字符 串 的 正确 base64 编码 。 这 种 方法 的 优点 在 于 相对 简单 。 
口 使 用 urllib 功能 自动 提供 Authorization 首部 。 


from urllib.request import HTTPBasicAuthHandler, HTTPPasswordMgrWithDefaultRealm 
auth_ handler = urllib.request .HTTPBasicAuthHandler( 
password mgr=HTTPPasswordMgrWithDefaultRealm) 
auth_ handler.add password!( 
realm=None., 
UEIS "NECBSS/ AL2TSO0. 0 L5000% 
user='Aladdin', 
passwd='OpenSesame') 
password_opener = urllib.request.build opener (auth handler) 


我 们 创建 了 HTTPBasicAuthHangler 的 一 个 实例 ,该 实例 填充 了 所 有 可 能 需要 的 用 户 名 和 密码 。 
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对 于 从 多 个 站 点 收集 数据 的 复杂 应 用 程序 ， 可 能 会 向 处 理 程 序 添加 多 个 凭据 集 。 
使 用 with password_opener (request) as response: 替 代 with urllib.request .urlopen 


(request) as response:。Authorization 首部 通过 password_opener 对 象 被 添加 到 请 求 中 。 























该 方法 的 优点 在 于 相对 灵活 。 我 们 可 以 轻易 地 切换 为 使 用 HI 
加 其 他 用 户 名 和 密码 。 














rTPDigestAuthHandler, 还 可 以 添 


域 (realm ) 信息 有 时 令 人 困惑 。 域 是 多 个 URL 的 容器 。 当 服务 器 需要 认证 时 ， 它 将 给 出 401 状 











态 码 。 该 响应 将 包含 一 个 Authenticate 首部 ,该 首部 命名 了 凭据 从 属 的 域 。 由 于 域 包 含 多 个 站 点 
































URL， 因 此 域 信息 往 往 是 静态 的 。HTTPBasicAuthHandler 使 
供 哪 些 用 户 名 和 密码 。 




















用 域 和 URL 信息 选择 在 授权 响应 中 提 

















通常 需要 编写 技术 探 针 来 尝试 连接 , 并 在 401 响应 中 打印 首 





部 ， 以 查看 域 字符 串 的 内 容 。 一 旦 知 
































道 了 域 ， 就 可 以 构建 HTTPBasicauthHandler。 另 一 种 方法 是 使 用 某 些 浏览 器 提供 的 开发 者 模式 来 








检查 首部 ， 并 查看 401 响应 的 详细 信息 。 





12.8.5 “延伸 阅读 









































融 开 始 的 证 书 链 ， 包 括 颁发 证 书 的 各 个 授权 机 构 的 证 书 。 


之 外 的 HITP 和 HTTPS 问题 ， 还 可 以 处 理 复杂 的 证 书 链 

















docs/http/configuring https_servers.html。 











口 对 于 服务 器 而 言 ， 正 确 的 SSL 配置 通常 涉及 使 用 由 证 书 颁发 机 构 签名 的 证 书 。 这 涉及 从 服务 




















口 许多 Web 服务 实现 使 用 GUnicorn 或 NGINX 之 类 的 服务 器 。 这 些 服务 器 通常 会 处 理应 用 程序 


o 


口 有 关 详 细 信 息 , 请 参阅 http://docs.gunicorn.org/en/stable/settings.html#ssl 以 及 http://nginx.org/en/ 


应 用 程序 集成 








本 章 主要 介绍 以 下 实例 。 

口 查找 配置 文件 

口 使 用 YAML 编写 配置 文件 

口 使 用 Python 赋值 语句 编写 配置 文件 
口 使 用 Python 类 定义 编写 配置 文件 
口 设计 可 组 合 的 脚本 

口 使 用 1ogging 模块 监控 和 审计 输出 
口 将 两 个 应 用 程序 组 合 为 一 个 复合 应 用 程序 
口 使 用 命令 设计 模式 组 合 多 个 应 用 程序 
口 管理 复合 应 用 程序 中 的 参数 和 配置 
口 包装 和 组 合 CLI 应 用 程序 

口 包装 程序 并 检查 输出 

口 控制 复杂 的 步骤 序列 







































































Python 的 可 扩展 库 提供 了 众多 计算 资源 。 因 此 ，Python 程序 在 集成 组 件 以 进行 复杂 的 复合 处 理 方 
面 特别 强大 。 
5.5 节 、5.6 节 和 5.7 节 介 绍 了 创建 顶级 应 用 程序 脚本 的 具体 技术 。 第 9 章 介绍 了 文件 系统 的 输入 
和 输出 。 第 12 章 介 绍 了 创建 服务 器 的 方法 ， 服 务 器 是 接收 来 自 客 户 端 请 求 的 主 应 用 程序 。 
上 述 实例 展示 了 Python 应 用 程序 编程 的 某 些 方面 。 除 此 之 外 ， 还 有 其 他 一 些 有 用 的 技术 。 
口 处 理 配置 文件 。5.5 节 介 绍 了 解析 命令 行 参数 的 技术 。5.7 节 介 绍 了 其 他 配置 细节 。 本 章 将 介绍 
一 些 处 理 配 置 文件 的 方法 。 可 用 于 存储 长 期 配置 信息 的 文件 格式 有 多 种 。 
田 INI 文件 格式 可 由 configparser 模块 处 理 。 
昌 YAML 文件 格式 简单 易 用 ， 但 需要 一 个 当前 不 属于 Python 发 行 版 的 附加 模块 。13.3 节 将 介 


绍 这 种 文件 格式 。 | 
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加 Properties 文件 格式 是 Java 编程 中 的 典型 格式 ， 不 需要 编写 太 多 代码 就 可 以 用 Python 处 理 ， 
语法 与 Python 脚本 非常 相似 。 
四 包含 赋值 语句 的 Python 脚本 文件 很 像 Properties 文件 , 使 用 compile () 和 exec () 方 法 处 理 
起 来 非常 简单 。13.4 节 将 介绍 这 种 文件 格式 。 
晶 包含 类 定义 的 Python 模块 是 使 用 Python 语法 的 变 体 ， 但 是 将 各 种 设置 隔离 为 不 同 的 类 。 这 
种 格式 可 以 使 用 import 语句 进行 处 理 。13.5 节 将 讨论 这 种 格式 。 
口 可 以 将 多 个 应 用 程序 组 合 为 规模 更 大 、 更 复杂 的 复合 应 用 程序 。 本 章 将 介绍 如 何 设计 这 种 应 
用 程序 。 
口 本 章 将 研究 复合 应 用 程序 可 能 出 现 的 复杂 性 ， 以 及 需要 集中 的 一 些 功 能 ， 比 如 命令 行 解析 。 
口 本 章 还 将 扩展 第 6 章 和 第 7 章 中 的 一 些 概念 ， 并 将 命令 设计 模式 应 用 于 Python 程序 。 


13.2 ”查找 配置 文件 


许多 应 用 程序 的 配置 选项 具有 层次 结构 。 这 些 配置 可 能 是 内 置 于 特定 版 本 的 默认 值 ， 也 可 能 是 
服务 器 范围 〈 或 集群 范围 ) 的 值 ， 还 可 能 是 特定 于 用 户 的 值 ， 甚 至 可 能 是 特定 于 程序 调用 的 本 地 配 
置 文件 。 

在 许多 情况 下 ， 为 了 便于 更 改 ， 这 些 配置 参数 都 被 写 信 了 文件 。Linux 的 惯例 是 将 系统 范围 的 配 
置 放 在 /etc 目录 下 ,将 用 户 的 个 人 配置 放 在 其 主 目录 下 ， 主 目录 通常 被 命名 为 ~username。 
如 何 支 持 配 置 文件 位 置 的 丰富 层次 结构 ? 


13.2.1 准备 工作 


本 实例 是 为 用 户 分 牌 的 Web 服务 。 该 服务 兽 在 第 12 章 的 多 个 实例 中 讨论 过 。 为 了 专注 于 从 各 种 
文件 系统 获取 配置 参数 ， 本 实例 将 省 略 服务 的 一 些 详细 信息 。 
本 实例 将 遵循 bash shell 的 设计 模式 ，bash 在 以 下 几 个 位 置 查找 配置 文件 。 
(1) 从 /etc/profile 文件 开始 。 
(2) 读 取 /etc/profile 文件 后 ， 按 以 下 顺序 查找 文件 。 
a. ~/.bash _ profile 
b. ~/.bash login 
c. ~/.profile 
在 兼容 POSIX 的 操作 系统 中 ，shell 将 ~ 扩展 为 登录 用 户 的 主 目录 ， 用 户 的 主 目录 被 定义 为 HOME 
环境 变量 的 值 。 通 常 ，Python 的 pathlib 模块 可 以 自动 处 理 这 个 问题 。 
保存 程序 的 配置 参数 有 以 下 几 种 方法 。 
口 使 用 类 定义 的 优势 在 于 具有 巨大 的 灵活 性 和 相对 简单 的 Python 语法 。 它 可 以 使 用 普通 继承 来 
包含 默认 值 。 当 有 多 个 参数 来 源 时 ， 这 种 方法 无 效 ， 因 为 没有 更 改 类 定义 的 简便 方法 。 
口 对 于 映射 类 参数 ， 可 以 使 用 chainMap 集合 搜索 多 个 字典 ， 其 中 每 个 字典 都 来 自 不 同 的 参数 
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口 对 于 simpleNamespace 实例 ，types 模块 提供 了 simpleNamespace 类 。 该 类 是 可 变 的 ， 
可 以 从 多 个 参数 来 源 更 新 。 
口 argparse 模块 中 的 Namespace 实例 使 用 起 来 很 方便 ， 因 为 它 可 以 反映 来 自命 令 行 的 选项 。 
bash shell 设计 模式 使 用 两 个 独立 的 文件 , 再 加 上 应 用 程序 范围 的 默认 值 , 实际 上 配置 有 3 个 层次 。 
多 层次 的 配置 文件 可 以 通过 映射 和 collections 模块 中 的 chainMap 类 实现 。 
随后 的 实例 将 介绍 解析 和 处 理 配置 文件 的 方法 。 本 实例 假设 已 经 定义 了 loaq_config_ file() 
函数 ， 该 函数 加 载 具 有 给 定 文 件 内 容 的 配置 映射 对 象 。 


def load config_ file(config _ file): 
'''Loads a configuration mapping object with contents 
of a given file. 












































:param config _ file: File-like object that can be read. 
:returns: mapping with configuration parameter values 
# 细节 已 省 略 
13.3 节 和 13.4 节 将 介绍 实现 该 函数 的 不 同方 法 。 
pathlib 模块 有 助 于 该 处 理 ， 它 提供 了 Path 类 定义 ，Path 类 提供 了 大 量 关 于 操作 系统 文件 
复杂 信息 。 更 多 相关 信息 ， 请 参阅 9.2 节 。 
为 什么 有 这 么 多 选择 
在 讨论 这 种 设计 时 ， 有 时 会 出 现 一 个 额外 的 话题 一 一 为 什么 有 这 人 么 多 选择 ? 为 什么 不 确切 地 指定 
两 个 位 置 ? 
答案 取决 于 设计 的 情景 。 在 创建 一 个 全 新 的 应 用 程序 时 ， 选 择 可 以 仅 限 于 两 个 。 然 而 ， 在 替换 遗 
留 应 用 程序 时 ， 通 常会 有 一 个 在 某 些 方面 比 遗 留 位 置 更 好 的 新 位 置 ， 但 是 仍然 需要 支持 遗留 的 位 置 。 
经 过 几 次 这 样 的 演变 之 后 ， 文 件 通常 具有 许多 备 选 位 置 。 
另外 ,由 于 Linux 发 行 版 之 间 的 差异 ， 通 常会 看 到 某 些 变 体 对 于 一 个 发 行 版 是 典型 的 ， 对 于 另 一 
个 发 行 版 却 是 非典 型 的 。 当 然 ， 在 Windows 中 也 会 有 不 同 的 文件 路 径 。 
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13.2.2 ”实战 演练 


(1) 导入 Path 类 和 chainMap 类 。 


from pathlib import Path 
from collections import ChainMap 


(2) 定义 一 个 函数 来 获取 配置 文件 。 


def get_config(): 


(3) 为 各 种 参数 来 源 位 置 创建 路 径 。 这 些 路 径 被 称 为 纯 路 径 ， 因 为 与 文件 系统 无 关 。 它 们 以 潜在 
的 文件 名 称 开头 。 


system path = Path('/etc/profile') 
home_path = Path('~') .expanduser() 
local_paths = [home path/'.bash profile', 
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home_path/'.bash_ login', 
home_path/' .profile'] 


(4) 定义 应 用 程序 的 内 置 默认 值 。 


configuration items = [ 








dict( 
some_setting = 'Default Value', 
another_setting = 'Another Default', 
some_option = 'Built-In Choice', 


) 
] 


(5) 每 个 单独 的 配置 文件 都 是 一 个 从 键 到 值 的 映射 。 各 种 映射 对 象 将 形成 一 个 列表 ， 该 列表 将 成 
为 最 终 的 chainMap 配置 映射 。 我 们 将 通过 追加 项 来 组 装 映射 列表 ， 然 后 在 文件 加 载 后 反 转 顺 序 。 
(6) 如 果 存 在 系统 范围 的 配置 文件 ， 那 么 加 载 该 文件 。 


if system path.exists(): 
with system path.open() as config file: 
configuration_ items.append (config_ file) 


(7) 通过 迭代 其 他 位 置 查找 待 加 载 的 文件 。 该 步 又 将 加 载 找到 的 第 一 个 文件 。 


for config path in local_paths : 
if config path.exists(): 
with config path.open() as config_ file: 
configuration items.append(config_ file) 
break 


我 们 在 代码 中 添加 了 if-break 模式 , 在 找到 第 一 个 文件 之 后 将 停止 迭代 。 这 种 方法 将 循环 的 默 
认 语 义 从 For All 修改 为 There Exists。 更 多 相关 信息 ， 请 参阅 2.8 节 。 

(8) 反 转 列表 并 创建 最 终 的 chainMap。 反 转 列表 可 以 改变 搜索 顺序 ,首先 搜索 本 地 文件 ， 然 后 搜 
索 系 统 设置 ， 最 后 搜索 应 用 程序 的 默认 设置 。 

configuration = ChainMap (*reversed(configuration_ items)) 

(9) 返回 最 终 的 配置 映射 。 

return configuration 

构建 configuration 对 象 之 后 ， 就 可 以 像 最 简单 的 映射 一 样 使 用 最 终 配置 了 。 该 对 象 支持 所 有 
预期 的 字典 操作 。 
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13.2.3 ”工作 原理 


面向 对 象 语言 最 优雅 的 功能 之 一 是 能 够 创建 简单 的 对 象 集合 。 在 本 实例 中 ,对象 是 Path 对 象 。 

正如 在 9.2 节 中 提 到 的 ，Path 对 象 有 一 个 resolve() 方 法 ,可 以 返回 一 个 从 纯 路 径 Path 构建 
的 具体 路 径 。 本 实例 使 用 exists () 方 法 确定 是 否 可 以 构建 一 个 具体 路 径 。 当 open ( ) 方 法 用 于 读 取 
文件 时 ， 将 解析 纯 路 径 并 打开 相关 的 文件 。 

4.9 刷 介绍 了 使 用 字典 的 基本 知识 。 在 本 实例 中 , 我 们 将 多 个 字典 组 合成 一 个 链 (chain )。 当 一 个 
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键 不 在 链 的 第 一 个 字典 中 时 , 将 检查 链 中 后 续 的 字典 
手动 创建 chainMap 的 示例 如 下 所 示 : 
>>> from collections import ChainMap 
>>> config = ChainMap( 


{'another setting': 2}, 
'some_ setting': 1}, 














局 
法 





是 为 映射 中 的 每 个 键 提供 默认 值 的 简便 方法 。 














~ 


{'some setting': 'Default Value', 
'another ett Rg 'Another Default'， 
'some_option' ‘Built- In Choice'}) 





config 对 象 由 3 个 单独 的 映射 构建 。 第 一 个 映射 可 能 是 来 自 本 地 文件 的 详细 信息 ， 例 如 
~/.bash_login。 第 二 个 映射 可 能 是 /etc/profile 文件 中 系统 范围 的 设置 。 第 三 个 映射 包含 应 用 程序 范围 的 
默认 值 。 

当 查 询 该 对 象 的 值 时 ， 结 果 如 下 所 示 : 


>>> config['another setting'] 
2 

>>> config['some setting'] 

1 

>>> config['some option'] 
'Built-In Choice' 


任何 给 定 键 的 值 取 自 映射 链 中 该 键 的 第 一 个 实例 。 这 种 功能 通过 一 种 非常 简单 的 方法 使 用 本 地 值 
覆盖 系统 范围 内 的 值 ， 而 系统 范围 内 的 值 覆 盖 了 内 置 默 认 值 。 










































































13.2.4 ”补充 知识 


11.9 节 介 绍 了 模拟 外 部 资源 的 方法 。 因 此 ， 可 以 编写 一 个 不 会 意外 删除 文件 的 单元 测试 。 对 本 实例 
中 的 代码 进行 测试 需要 通过 模拟 Path 类 来 模拟 文件 系统 资源 。 单 元 测试 的 测试 类 概要 如 下 所 示 : 


import unittest 
from unittest.mock import * 












































Class GIVEN get_config_ WHEN_ load_THEN_overrides (unittest.TestCase): 
def setUp(self): 





def: runTest (selt): 

上 述 代 码 提供 了 单元 测试 的 样板 结构 。 因 为 涉及 大 量 不 同 的 对 象 ， 所 以 对 Path 的 模拟 过 程 相当 
复杂 。 各 种 对 象 的 创建 过 程 总 结 如 下 。 
(1) 调用 Path 类 创建 一 个 Path 对 象 。 测 试 处 理 将 创建 两 个 Path 因此 可 以 使 用 siae_ 
effect 返回 每 个 对 象 。 还 需要 根据 被 测试 单元 中 的 代码 确定 值 的 顺序 是 否 正 确 。 


self.mock path = MocK( 
side_effect = [self.mock_system path, self.mock_ home patnh] 





















































) 














(2) 对 于 system_path 值 ， 调 用 Path 对 象 的 exists () 方 法 ， 这 将 确定 具体 文件 是 否 存在 。 然 bl 
后 打开 文件 并 读 取 内 容 。 
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self.mock path = Mock( 
side_effect = [self.mock_system path, self.mock_ home_ path] 
) 


(3) 对 于 home_path 值 ， 调 用 expanduser () 方 法 将 ~ 更 改 为 正确 的 主 目录 。 


self.mock home _ path = Mock( 
expanduser = Mock( 
return _ value = Self.mock_expandedq_home_path 
) 
) 


(4) 然后 ， 将 扩展 后 的 home_path 与 /操作 符 一 起 使 用 ， 创 建 3 个 替代 目录 。 


self.mock_ expanded home path = MagicMocK( 
_ truediv = Mock( 
side_ effect = [self.not exist, self.exist, self.exist] 

















) 
) 


(5) 为 了 进行 单元 测试 ， 假 定 不 存在 第 一 个 路 径 ， 而 其 他 两 个 路 径 确实 存在 ， 但 是 我 们 只 期 望 读 
取 其 中 一 个 路 径 ， 另 一 个 路 径 将 被 忽略 。 
口 对 于 不 存在 的 模拟 路 径 ， 可 以 使 用 以 下 代码 。 


SelLf.not_exist = Mock( 
exists = Mock (return value=False) ) 


口 对 于 存在 的 模拟 路 径 ， 需 要 使 用 更 复杂 的 代码 。 
self.exist = Mock( exists = Mock(return value=True), open = mock_open() ) 
我 们 还 必须 通过 模拟 模块 的 mock_open () 函数 来 操作 文件 处 理 。 这 样 就 可 以 处 理 作为 上 下 文 管 
理 器 的 文件 的 各 种 细节 , 但 是 处 理 也 变 得 相当 复杂 。with 语句 需要 使 用 由 mock_open () 函数 处 理 的 
__enter () 方 法 和 exit _() 方 法 。 
必须 以 相反 的 顺序 组 装 这 些 模拟 对 象 。 这 样 就 可 以 
顺序 显示 对 象 的 setUp ( ) 方 法 如 下 所 示 : 


def setUp(self): 
self.mock_system path = Mock( 
exists = Mock(return value=True), 
open = mock_open() 








































































































EN 








保 每 个 变量 在 使 用 之 前 就 已 经 创建 。 以 正确 


























) 
self.exist = Mock( 
exists = Mock(return value=True), 
open = mock_open() 
) 
self.not_ exist = Mock( 
exists = Mock(return value=False) 
) 
self.mock_ expanded home path = MagicMock( 
_ truediv = Mock( 
side_effect = [self.not exist, self.exist, self.exist] 


) 
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self.mock home path = MocK( 

expanduser = Mock( 

return value = self.mock expanded home path 

) 
) 
self.mock path = MocK( 

side_ effect = [self.mock_system path, self.mock_ home patnh] 
) 


self.mock_load = Mock( 
side_ effect = [{'some setting': 1}, {'another_ setting': 2}] 
) 


除了 模拟 Path 操作 之 外 ， 又 增加 了 一 个 模拟 模块 。mock_loaq 对 象 奉 代 了 尚未 定义 的 
load_config_file() 。 我 们 希望 分 离 测试 和 路 径 处 理 ， 因 此 模拟 对 象 使 用 side_effect 属性 返回 
两 个 单独 的 值 。 

以 下 测试 说 明了 路 径 搜索 的 工作 原理 。 每 个 测试 从 应 用 两 个 补丁 开始 ,创建 一 个 经 过 改进 的 上 下 
文 来 测试 get_config () 函数 。 


def runTest (self): 
with patch(' main .Path', self.mock path), \ 
patch('_ main .load config file', self.mock_load): 
config = get_config() 
# print (config) 
self.assertEqual (2, config['another_ setting']) 
self.assertEqual (1, config['some_ setting']) 
self.assertEqual ('Built-In Choice', config['some_ option']) 


第 一 次 使 用 patch() 时 , 用 self.mock_path 替换 Path 类 。 第 二 次 使 用 patcn() 时 , 将 
load_config_file() 困 数 替换 为 self .mock_1oad 函数 ， 这 个 函数 将 返回 两 个 配置 文档 。 在 这 两 
种 情况 下 , 修补 的 上 下 文 是 当前 模块 , 其 _name_ 值 为 _main _。 当 单元 测试 位 于 单独 的 模块 中 时 ， 
将 导入 被 测 模 块 ， 并 使 用 该 模块 的 名 称 。 

可 以 通过 检查 self .mock_1oad 的 调用 来 检查 10ad_config_file() 是 否 正确 地 调用 了 。 在 这 
种 情况 下 ， 每 个 配置 文件 应 该 有 一 个 调用 。 


Self.mock_loadq.assert_has_call1s( 


[ 

















eol 













































































call(self.mock_system path.open.return value._ enter .return value), 
call (self.exist.open.return value. enter _.return value) 








) 

假设 首先 检查 self .mock_system_path 文件 。 请 注意 ， 调 用 链 Path () 返回 一 个 Path 对 象 。 
该 对 象 的 open () 方 法 必须 返回 一 个 被 用 作 上 下 文 的 值 。 上 下 文 的 __enter__() 方 法 是 将 由 1o0ad_ 
config_file() 函数 使 用 的 对 象 。 

假设 另 一 个 路 径 是 exists () 方 法 将 返回 True 的 路 径 之 一 。 检 查 已 构建 的 文件 名 的 代码 如 下 
所 示 : 
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self.mock_ expanded home path.assert_has_calls!l( 
[cal1. truediv _('.bash profile'), 
call._ truediv _ ('.bash_ login'), 
cal1. truediv _('.profile')] 
认 Path 

















个 单独 的 path 实例 。 可 以 














) 
/运算 符 通过 truediv__() 方 法 实现 。 每 个 调用 构建 
对 象 总 共 只 被 调用 了 两 次 ,一 次 是 '/etc/profile', 一 次 


self.mock path.assert_has_calls( 
[call('/etc/profile'), call('~')] 














) 
需要 注意 的 是 , 两 个 文件 的 exists () 方 法 都 返回 了 True。 但 是 , 我 们 希望 只 检查 其 中 一 个 文件 。 
找到 第 一 个 文件 之 后 ， 第 二 个 文件 将 被 忽略 。 下 面 的 测试 将 确认 是 否 只 进行 了 一 次 检查 : 






































) 





[call.exists()] 





t_has_calls( 















































self.exist.assert 

为 了 使 检查 更 完整 ， 我 们 通过 遍历 整个 上 下 文 管理 序列 来 检查 存在 的 文件 

self.exist.open.assert_ has_calls( 

[call(), call(). enter (), call()._ exit _(None, None, None)] 

) 

第 一 个 调用 的 是 self .exist 对 象 的 open() 方 法 ， 返回 值 是 一 个 上 下 文 ， 该 上 下 文 将 执行 
__enter _() 方 法 以 及 __exit__() 方 法 。 在 前 面 的 代码 中 , 为 了 获取 配置 文件 的 内 容 , 我 们 检查 了 
__enter _() 的 返回 值 。 


13.2.5 延伸 阅读 
口 13.3 节 和 13.4 节 将 介绍 如 何 实现 1oaq_config_file() 国 数 。 
口 11.9 节 介 绍 了 一 些 函数 的 测试 方法 。 与 本 实例 类 似 ， 这 些 函 数 都 与 外 部 资源 进行 交互 。 


13.3 ”使 用 YAML 编写 配置 文件 
程序 输入 和 配置 文件 的 方法 。 本 实例 将 介绍 如 何 编写 优雅 简单 的 
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Python 提供 了 多 种 打包 应 


YAML 文件 。 
如 何以 YAML 标记 形式 表示 配置 的 详细 信息 ? 


13.3.1 ”准备 工作 
Python 没有 内 置 的 YAML 解析 器 。 我 们 需要 使 用 pip 包 管 理 系统 ， 将 pyyaml 添加 到 库 中 。 安 

















装 方式 如 下 所 示 : 


MacBookPro-SLott :pyweb slott$ pip3.5 install pyyaml 


Collecting pyyaml 


Downloading PYyYAML-3.11.zip (371kB) 
100% | 国 国 国 国 加 国 国 国 国 国 国 国 国 加 国 国 国 国 国 国 国 国 国 国 因 国 国 国 国 国 国 国 | 378ks 


2.5MB/s 
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Installing collected packages: pyyaml 
Running setup.py install for pyyaml .. 
Successfully installed pyyaml-3.11 


YAML 语法 的 优雅 之 处 在 于 用 简单 的 缩 进来 显示 文档 的 结构 ， 如 下 所 示 : 
query: 
mz: 
- ANZ532 
- AMZ117 
- AMZ080 
url: 
scheme: http 
netloc: forecast .weather.gov 
path: /shmrn.php 
description: > 


. done 








Weather forecast for Offshore including the Bahamas 

该 文档 可 被 看 作 类 似 http://forecast.weather.gov/shmrn.php?mz=ANZ532 的 大 量 相 关 URL 的 规范 。 
它 包含 从 协议 方案 、 网 络 位 置 、 基 本 路 径 和 多 个 查询 字符 号 
以 加 载 该 YAML 文档 ， 并 创建 以 下 Python 结构 : 


{'description': 'Weather forecast for Offshore including the Bahamas\n', 
'query': {'mz': ['ANZ532', 'AMZ117', 














构建 URL 的 信息 。yaml .10ad () 函数 可 


'AMZ080']}, 
'url': {'netloc': 'forecast.weather.gov', 
'path': 'shmrn.php', 
'scheme': 'http'}} 











应 用 程序 可 以 使 用 这 种 dict-of-dict 结构 自 定义 其 操作 方法 。 本 例 指定 了 需要 查询 的 URL 序列 ， 
以 生成 规模 更 大 的 天 气 简 报 。 
我 们 经 常 使 用 13.2 节 的 实例 检查 各 种 位 置 , 以 查找 给 定 的 配置 文件 。 这 种 灵活 性 对 于 创建 易于 在 
各 种 平台 上 使 用 的 应 用 程序 非常 重要 。 

本 实例 将 构建 上 一 个 实例 的 缺失 部 分 , 即 1oaq_config_file() 函数 。 该 函数 


def load config file(config file) 

































































的 模板 如 下 所 示 。 
-ECE 

'''Loads a configuration mapping object with contents 

of a given file. 


:param config_ file: 


File-like object that can be read. 
:returns: 


mapping with configuration parameter values 


# 细节 已 省 略 


13.3.2 ”实战 演练 


(1) 导入 yaml 模块 。 


import yaml 











(2) 使 用 yaml .1o0agd() 函数 加 载 YAML 格式 的 文档 。 
def load config file(config file) -> dict: 

''Loads a configuration mapping object with contents 
of a given file. 
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:param config_ file: File-like object that can be read. 
:returns: mapping with configuration parameter values 


document = yaml.load(config_ file) 


return document 


13.3.3 ”工作 原理 
http://yaml.org 定义 了 YAML 的 语法 规则 。YAML 提供 类 似 JSON 的 数据 结构 , 但 具有 更 灵活 、 更 


人 性 化 的 语法 。JSON 是 更 通用 的 YAML 语法 的 一 种 特殊 情况 。 
区 别 在 于 ，JSON 中 的 空格 和 换行 符 并 不 重要 ， 因 为 标点 符号 显示 了 文档 的 结构 。 但 


两 者 之 间 的 
是 在 一 些 YAML 变量 中 ， 换 行 符 和 缩 进 决定 了 文档 的 结构 ， 使 用 空格 意味 着 换行 符 将 与 YAML 文档 





















































有 关 。 
JSON 语法 中 的 主要 数据 结构 如 下 。 

口 序列 ( sequence ): [item， item, 
口 映射 (mapping ): {key: value, key: value, 


Ge 





口 标量 ( scalar ): 
加 字符 串 〈string ): "value" 
加 数字 (number ): 3.1415926 
加 文本 (literal ): true、false 和 null 
JSON 语法 是 YAML 的 一 种 风格 ,这 种 风格 被 称 为 流风 格 ( flow style )。 在 这 种 风格 的 文档 


档 结 构 由 明确 的 符号 标记 。 在 语法 上 ， 需 要 {...} 和 [...] 来 显示 结构 。 
YAML 提供 的 方案 叫 作 块 风格 ( block style )。 文 档 结构 由 换行 符 和 缩 进 定 义 。 此 外 ， 长 字符 是 


量 值 可 以 使 用 文本 、 引 号 和 折 双 式 语法 样式 。YAML 语法 的 工作 原理 如 下 所 示 。 
口 块 序列 ( block sequence ): 用 -表示 序列 的 每 一 行 。 看 起 来 像 项 目 符号 列表 ， 易于 阅读 。 示 例 














;A 





Ud 





标 



































如 下 : 
zoneid: 
- ANZ532 
- AMZ117 
- AMZ080 
字符 串 列表 的 字典 ， 用 Python 语法 可 以 表示 为 : {zoneid: 


加 载 本 示例 将 创建 一 个 值 为 字符 是 
['ANZ532', 'AMZ117', 'AM2080']}。 
的 key : value 语法 将 键 与 简单 的 标量 联系 起 来 。 可 


口 块 映射 (block mapping ): 可 以 使 用 简单 
以 用 key : 把 键 单独 放 在 一 行 ， 值 以 缩 进 的 形式 放 在 随后 的 行 中 。 示 例如 下 : 


url: 
scheme: http 
netloc: marine.weather.gov 


本 示例 将 创建 一 个 般 套 字典 ， 用 Python 语法 可 以 表示 为 : {'url': {'scheme' 









































Nh oa 





'netloc': 'marine.weather.gov'}}o 
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我 们 也 可 以 使 用 显 式 的 键 和 值 标记 ， 例 如 ?和 : 。 当 键 是 特别 长 的 字符 串 或 更 复杂 的 对 象 时 ， 这 种 
标记 就 显得 非常 有 用 。 

? Scheme 

: http 

? netloc 

: marine.weather .gov 


YAML 的 某 些 高 级 功能 将 利用 键 和 值 之 间 的 这 种 显 式 分 离 。 

口 对 于 短 字 符 串 标量 值 ， 可 以 将 其 当 作 纯 文 本 ，YAML 规则 将 仅 使 用 去 除 前 导 空 格 和 尾随 空格 

之 后 的 所 有 字符 。 所 有 示例 都 对 字符 串 值 使 用 这 种 假设 。 

口 引号 可 以 用 于 字符 串 ， 这 一 点 与 JSON 完全 相同 。 

口 对 于 较 长 的 字符 串 ，YAML 引入 了 | 前 级 ,该 前 级 之 后 的 行将 完整 保留 所 有 空格 和 换行 符 。 
YAML 还 引入 了 > 前 级 ,该 前 级 将 多 行 字符 串 保 留 为 一 长 串 文本 ,任何 换行 符 都 被 视 为 一 个 空 
格 。 这 对 于 连续 文本 来 说 很 常见 。 在 这 两 种 情况 下 ， 缩 进 将 确定 有 多 少 文档 内 容 是 文本 的 一 
部 分 。 

口 在 某 些 情况 下 , 值 可 能 不 明确 。 举 例 来 说 , 美国 邮政 编码 全 部 是 数字 , 如 22102。 即 使 YAML 
规则 将 其 解释 为 数字 ， 这 种 编码 也 应 当 理 解 为 字符 串 。 引 号 当然 有 助 于 说 明 这 种 情况 。 为 了 
更 明确 地 表示 ， 值 前 面 的 本 地 标签 ! !stz 将 强制 指定 一 个 数据 类 型 。 例 如 ，! :str 22102 
确保 数字 被 视 为 字符 串 对 象 。 














































































































13.3.4 ”补充 知识 


YAML 还 具有 JSON 缺少 的 大 量 功 能 。 

口 支持 注释 ， 注 释 以 # 开 头 并 持续 到 行 尾 ， 并 且 几 乎 可 以 在 任何 地 方 使 用 。JSON 不 支持 注释 。 

口 支持 文档 起 始 标识 。 新 文档 的 开头 由 --- 行 标识 。 这 种 功能 允许 YAML 文件 包含 许多 单独 的 
对 象 。JSON 限制 每 个 文件 只 能 有 一 个 文档 。 每 个 文件 一 个 文档 的 替代 方案 是 一 种 复杂 的 解析 
算法 。YAML 提供 了 一 个 显 式 的 文档 分 隔 符 和 一 个 非常 简单 的 解析 接口 。 
包含 两 个 单独 文档 的 YAML 文件 如 下 所 示 。 


>>> import yaml 
>>> yaml text = ! 1 

































































。 id: 1 

. text: "Some Words." 

. id: 2 

. text: "Different Words." 


>>> document iterator = iter(yam]l.load alll(yam]l text)) 
>>> document 1 = next (document iterator) 

>>> document 1['id'] 

1 

>>> document 2 = next (document iterator) 

>>> document 2['text'] 

'Different Words. 
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yaml_text 值 包含 两 个 YAML 文档 ,每 个 文档 以 --- 开 头 。1oag_all () 末 数 是 一 个 迭代 器 ， 
每 次 只 加 载 一 个 文档 。 应 用 程序 必须 遍历 其 结果 以 处 理 流 中 的 每 个 文档 。 
支持 文档 结束 标识 。.. . 行 表示 文档 结束 。 

支持 复杂 的 映射 键 。JSON 映射 的 键 被 限制 为 标量 类 型 一 -字符 串 、 数 字 、true、false 和 
null。YAML 人 允许 更 复杂 的 映射 键 。 


















































口 


口 





口 








重要 的 是 ，Python 需要 一 个 可 散 列 的 不 可 变 对 象 作为 映射 的 键 。 这 意味 着 复杂 的 键 必须 转 
换 为 不 可 变 的 Python 对 象 ， 通 常 转 换 为 元 组 。 为 了 创建 一 个 Python 特定 的 对 象 ， 需 要 使 用 更 
复杂 的 本 地 标签 。 示 例如 下 。 


>>> YamlLl .load('' 
。? !l!lpython/tuple ["a", "b"] 
: "value" 
" 
{('a', 'b'): 'value'} 
本 示例 使 用 ?2 和 :标记 映射 的 键 和 值 。 之 所 以 这 样 做 , 是 因为 该 键 是 一 个 复杂 的 对 象 。 键 value 
使 用 本 地 标签 ! !python/tuple 创建 一 个 元 组 来 蔡 代 一 个 列表 默认 值 。 键 的 文本 使 用 流 式 风 
格 的 YAML 值 ["a"，"b"]。 
JSON 没有 关于 集 (set ) 的 规定 。YAML 允许 使 用 ! ! set 标签 创建 一 个 集 来 替代 一 个 简单 的 
序列 。 集 中 的 元 素 由 ?前 级 标识 ， 因 为 它们 被 认为 是 没有 值 的 映射 的 键 。 
请 注意 ，! ! set 标记 与 集中 的 值 处 于 相同 的 缩 进 级 别 ， 在 字典 的 键 aata_values 内 缩 进 。 
>>> import yaml 
>>> yaml text = ''"' 
. document: 
id: 3 
data values: 
1!11Set 


? more 
? words 



























































>>> some document = yaml.load(yaml text) 

>>> some_ document['document']['id'] 

3 

>>> some document['document']['data values'] == {'some', 'more', 'words'} 
True 


!1set 本 地 标签 将 随后 的 序列 修改 为 set 对 象 ， 而 不 是 默认 的 列表 对 象 。 结 果 集 等 于 预期 的 
Python 集 对 象 {'some'，'more',，'words'}。 

Python 可 变 对 象 规则 必须 应 用 于 一 个 集 的 内 容 。 由 于 列表 实例 没有 散 列 值 ， 因 此 无 法 构建 列 
表 对 象 的 集 。! !python/tuple 本 地 标签 可 以 用 于 建立 一 个 元 组 的 集 。 

YAML 可 以 创建 一 个 Python 二 元 组 列表 序列 ， 也 可 以 实现 有 序 映 射 。 但 是 ， 用 yaml 模块 创 
建 一 个 orderedDict 结构 非常 斌 烦 。 


>>> import yaml 
>>> yaml text = ! 51 
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。- key1: string value 
。 - numerator: 355 
。- denominator: 113 


>>> yaml.load(yaml_ text) 
[('keyl', 'string value'), ('numerator', 355), ('denominator', 113)] 


请 注意 ， 在 不 指定 大 量 详细 信息 的 情况 下 ， 很 难 执行 下 一 步 并 从 中 创建 一 个 orderegdDict。 
下 面 是 创建 orderedDict 实例 的 YAML。 


!Ipython/object/apply:collections.OrderedDict 
args: 

一 1 !omap 

一 keyl: string value 

= numerator: 355 

入 denominator: 113 









































口 args 关键 字 用 于 支持 ! !python/object/apply 标签 。 只 有 一 个 位 置 参数 ， 该 参数 是 由 一 
系列 键 和 值 构 建 的 YAML ! !omap。 

口 使 用 YAML 本 地 标签 几乎 可 以 构建 任何 类 的 Python 对 象 。 任 何 具有 init __() 方 法 的 类 都 
可 以 通过 YAML 来 构建 。 

一 个 简单 的 类 定义 如 下 所 示 : 


class Card: 
def _ init__ (self, rank, suit): 
self.rank = rank 
self.suit = suit 
def _ repr_ _(self): 
return "{rank} {suit}".format map(vars (self)) 


我 们 定义 了 一 个 具有 两 个 位 置 属性 的 类 。 该 对 象 的 YAML 描述 如 下 所 示 : 


!lpython/object/apply:_ main _.Card 
kwds: 

a 

suit: 昌 


我 们 使 用 kwas 键 为 carad 构造 函数 提供 了 两 个 基于 关键 字 的 参数 值 ,之 所 以 能 够 使 用 Unicode 
字符 &， 是 因为 YAML 文件 是 使 用 UTF-8 编码 的 文本 。 

口 除了 以 1 1 开头 的 本 地 标签 ，YAML 还 支持 使 用 tag: 协议 方案 的 URI 标签 。 这 种 方案 允许 全 
局 唯一 的 基于 URI 的 类 型 规范 ， 这 使 得 YAML 文档 在 各 种 上 下 文中 更 容易 处 理 。 
标签 包含 一 个 权限 名 称 、 一 个 日 期 和 /分 隔 路 径 形 式 的 特定 详细 信息 ， 例 如 标签 ! <tag :www. 


someapp.com,2016:rules/rulel>。 










































































13.3.5 ”延伸 阅读 


口 请 参阅 13.2 节 ， 了 解 如 何 搜索 配置 文件 的 多 个 文件 系统 位 置 。 我 们 可 以 轻松 地 将 应 用 程序 默 
认 设 置 、 系 统 范 围 设 置 和 个 人 设置 内 置 到 不 同 的 文件 中 并 由 应 用 程序 组 合 。 
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13.4 使 用 Python 赋值 语句 编写 配置 文件 


Python 提供 了 多 种 可 以 打包 应 用 程序 输入 和 配置 文件 的 方法 .本 实例 将 用 简单 优雅 的 Python 语法 
编写 配置 文件 。 

许多 包 在 单独 的 模块 中 使 用 赋值 语句 提供 配置 参数 ,特别 是 Flask 项 目 。12.3 节 和 第 12 章 中 的 很 
多 相关 实例 都 介绍 了 Flask。 

如 何 用 Python 模块 的 形式 表示 配置 的 详细 信息 ? 


13.4.1 ”准备 工作 


Python 的 赋值 语句 特别 优雅 、 简 单 、 易 读 并 且 非 常 灵活 。 使 用 赋值 语句 可 以 从 单独 的 模块 中 导入 
配置 的 详细 信息 。 假 设 该 模块 的 名 称 为 settings .py， 该 名 称 表明 模块 专注 于 配置 参数 。 
由 于 Python 将 每 个 导入 的 模块 视 为 一 个 全 局 单 例 对 象 ， 因 此 应 用 程序 的 多 个 部 分 都 使 用 import 
settings 语句 ， 就 可 以 获取 当前 应 用 程序 的 全 局 配置 参数 的 一 致 视图 。 
但 是 在 某 些 情况 下 ， 我 们 可 能 会 选择 另外 几 种 配置 文件 中 的 一 种 。 本 实例 将 使 用 一 种 比 import 
语句 更 灵活 的 技术 来 加 载 文件 。 
假设 我 们 希望 能 够 在 一 个 文本 文件 中 提供 如 下 定义 : 


'''Weather forecast for Offshore including the Bahamas 
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query = {'mz': ['ANZ532', 'AMZ117', 'AM7Z2080']} 
bb 

'scheme': 'http', 

'netloc': 'forecast .weather.gov', 

‘path': '/shmrn.php' 


} 

这 上段 文本 使 用 了 Python 语法 。 这 些 参 数 包 含 两 个 变量 : query 和 url。qauery 变量 的 值 是 一 个 
字典 ， 该 字典 只 有 一 个 键 mz ， 其 值 为 一 个 序列 。 

该 文本 可 被 视 为 类 似 http:/forecast,weather.govshmrn.php?mz=ANZ532 的 大 量 相 关 URL 的 规范 。 

我 们 经 常 使 用 13.2 节 的 实例 来 检查 各 种 位 置 , 以 查找 给 定 的 配置 文件 。 这 种 灵活 性 对 于 创建 易于 
在 各 种 平台 上 使 用 的 应 用 程序 非常 重要 。 

本 实例 将 构建 上 一 个 实例 的 缺失 部 分 即 1oaq_config_file() 函 数 。 该 函数 的 模板 如 下 所 示 。 


def load_config file(config file) -> dict: 
'''Loads a configuration mapping object with contents 
of a given file. 








虽 


























:param config_ file: File-like object that can be read. 
:returns: mapping with configuration parameter values 


# 细节 已 省 略 
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13.4.2 ”实战 演练 


用 以 下 代码 替换 1oad_config_file() 函数 中 的 “# 细节 已 省 略 ”一 行 。 

(1) 使 用 内 置 的 compile() 函数 编译 配置 文件 中 的 代码 。compile() 函数 需要 源 文本 以 及 源 文本 
的 文件 名 。 文 件 名 对 于 创建 有 用 且 正 确 的 回溯 消息 至 关 重 要 。 

code = compile(config file.read(), config file.name, 'exec') 

(2) 在 极 少 数 情况 下 ， 代 码 不 是 来 自 于 文件 。 这 时 ， 通 常 的 做 法 是 提供 一 个 名 称 来 替代 文件 名 ， 
例如 <string> 。 

(3) 执行 compile () 函数 创建 的 code 对 象 。 这 个 步骤 需要 两 个 上 下 文 : 全 局 上 下 文 提供 之 前 导 
和 人 的 所 有 模块 以 及 _ builtins_ 模块 ; 局 部 上 下 文 创建 新 变量 。 
















































































locals = {} 

exec(code, {'_ builtins ':_ builtins }, locals) 

return locals 

(4) 当代 码 在 脚本 文件 的 最 顶层 执行 时 (通常 在 if _name == "main "条 件 中 ),， 代码 




















将 在 全 局 上 下 文 和 局 部 上 下 文 都 相同 的 上 下 文中 执行 。 当 代码 在 函数 、 方 法 或 类 定义 中 执行 时 ， 该 上 
下 文 的 局 部 变量 与 全 局 变量 是 分 开 的 。 
(5) 通过 创建 一 个 单独 的 locals 对 象 ， 确 保 导 入 的 语句 不 会 意外 地 更 改 其 他 全 局 变量 。 















































13.4.3 ”工作 原理 


Python 语言 的 细节 (语法 和 语义 ) 体现 在 compile() 和 exec () 函数 中 。 启 动 一 个 脚本 的 基本 过 
程 如 下 。 
口 读 取 文本 ， 然 后 使 用 compile() 函数 编译 文本 来 创建 一 个 code 对 象 。 
口 使 用 sxec () 函数 执行 code 对 象 。 

_ pycache_ 目录 用 于 保存 code 对 象 以 及 未 更 改 的 需要 重新 编译 的 文本 文件 。 这 对 于 处 理 过 程 
没有 实质 性 的 影响 。 

exec () 函数 反映 了 Python 人 处理 全 局 变量 和 局 部 变量 的 方式 ， 该 函数 接受 了 两 个 命名 空间 ， 这 两 
个 命名 空间 对 通过 globals () 和 locals () 函数 运行 的 脚本 是 可 见 的 。 

本 实例 提供 了 两 个 不 同 的 字典 。 
口 全 局 对 象 的 字典 。 可 以 通过 global 语句 访问 这 些 变量 。 最 常见 的 用 途 是 提供 对 始终 是 全 局 
的 导入 模块 的 访问 。 例 如 , 经 常 提供 ”builtins_ 模块 ,在 某 些 情况 下 , 应 当 添 加 其 他 模块 。 
口 局 部 变量 的 字典 由 每 个 赋值 语句 更 新 。 局 部 变量 字典 允许 捕获 settings 模块 中 创建 的 变量 。 



























































































































































13.4.4 ”补充 知识 


本 实例 构建 了 一 个 配置 文件 ， 这 个 文件 可 以 完全 由 一 系列 name = value 赋值 语句 构成 ， 这 个 语 
句 由 Python 赋值 语句 语法 直接 支持 。 
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此 外 ， 还 可 以 使 用 有 关 Python 程序 设计 的 全 部 技术 ,但 是 必须 做 出 一 些 工程 上 的 权衡 取舍 。 
昌 然 任何 语句 都 可 以 在 配置 文件 中 使 用 ,但 是 可 能 会 导致 复杂 性 。 如 果 处 理 过 于 复杂 ,那么 文件 
不 再 是 配置 ， 而 是 应 用 程序 中 最 重要 的 部 分 。 非 常 复杂 的 功能 应 该 通过 修改 程序 设计 来 完成 ， 而 不 是 
通过 配置 设置 来 完成 。 由 于 Python 应 用 程序 包含 源 代码 ， 因 此 这 种 方法 是 比较 容易 的 。 
除了 简单 的 赋值 语句 之 外 ,使 用 if 语句 处 理 选 择 也 是 非常 合理 的 。 文 件 可 能 会 根据 特定 运行 时 
环境 的 独特 功能 提供 单独 的 内 容 。 例 如 ， 可 以 使 用 platform 包 来 隔离 功能 。 


import platform 
if platform.system() == 'Windows': 
tmp = Path(r"C:\TEMP") 
else: 
tmp = Path("/tmp") 
为 了 能 够 正常 运行 这 段 代码 , plat form 和 Path 应 当 是 全 局 变量 。 这 是 一 个 超出 _builtins__ 
的 合理 扩展 。 
为 了 使 大 量 相 关 的 设置 更 容易 组 织 ， 进 行 一 些 处 理 也 是 合理 的 。 例 如 ， 应 用 程序 可 能 有 多 个 相关 
文件 ， 编 写 如 下 的 配置 文件 会 有 所 帮助 。 
base = Path('/var/app/') 


log = base/'log' 
out = base/'out' 


log 和 onut 的 值 由 应 用 程序 使 用 。base 的 值 仅 用 于 确保 其 他 两 个 位 置 位 于 同一 目录 下 。 
这 将 导致 之 前 演示 的 1oaq_config_file() 函 数 发 生变 化 。 这 个 版 本 的 10agd_config_file() 
函数 添加 了 一 些 附 加 模块 和 全 局 类 。 


from pathlib import Path 
import platform 
def load_ config _ file path(config file) -> dict: 







































































了 




















| 



























































code = compile(config file.read(), config file.name, 'exec') 
OLl6bBals a {(" SPuiltins:. "3. builtiris. 

'Path': Path, 'platform': platform} 
Jocals = {} 


exec (code, globals, locals) 
return locals 


添加 Path 和 platform 意味 着 可 以 写 入 配置 文件 ， 而 且 没 有 import 语句 的 开销 ， 这 样 配置 更 
容易 组 织 和 维护 。 

















13.4.5 延伸 阅读 
口 请 参阅 13.2 节 了 解 如 何 搜索 配置 文件 的 多 个 文件 系统 位 置 。 
13.5 “使 用 Python 类 定义 编写 配置 文件 


Python 提供 了 多 种 打包 应 用 程序 输入 和 配置 文件 的 方法 本 实例 将 用 人 简单 优雅 的 Python 语法 编写 
配置 文件 。 
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许多 包 在 单独 的 模块 中 使 用 类 定义 来 提供 配置 参数 。 使 用 类 层次 结构 就 意味 着 可 以 使 用 继承 技术 
简化 参数 的 组 织 ， 特 别 是 Flask 项 目 。12.3 节 和 第 12 章 中 的 一 些 相关 实例 都 介绍 了 Flask。 
如 何 用 Python 类 的 形式 表示 配置 的 详细 信息 ? 


13.5.1 准备 工作 

Python 用 于 定义 类 的 属性 的 表示 方法 特别 优雅 、 简 单 、 易 读 ， 并 且 非 常 灵活 。 我 们 可 以 轻松 地 定 
义 一 种 精妙 的 配置 格式 ， 用 于 快速 可 靠 地 改变 Python 应 用 程序 的 配置 参数 。 

我 们 可 以 基于 类 定义 设计 这 种 语言 ， 这 样 就 可 以 在 单个 模块 中 包装 一 些 配置 选项 。 应 用 程序 可 以 
加 载 模块 并 从 模块 中 选择 相关 的 类 定义 。 

我 们 希望 提供 的 定义 如 下 所 示 : 


class Configuration: 










































































Weather forecast for Offshore including the Bahamas 


query = {'mz': ['ANZ532', 'AMZ117', 'AMZ080']} 
rv 

'scheme': 'http', 

'netloc': 'forecast .weather.gov', 

'path': '/shmrn.php' 


} 

可 以 在 单独 的 settings 模块 中 创建 configuration 类 。 为 了 使 用 这 个 配置 ， 主 应 用 程序 应 当 
添加 以 下 语句 : 

from settings import Configuration 

这 行 代码 使 用 了 一 个 固定 的 文件 和 一 个 固定 的 类 名 称 ( 这 个 模块 不 是 内 置 模 块 ， 而 是 自 建 的 )。 
这 种 方法 尽管 缺乏 灵活 性 ， 但 通常 比 其 他 替代 方案 更 有 效 。 另 外 ,还 有 其 他 两 种 文 持 复杂 配置 文件 的 
方法 : 
口 可 以 使 用 PYTHONPATH 环境 变量 列 出 配置 模块 的 多 个 位 置 ; 
口 使 用 多 重 继承 和 mixin 将 默认 值 、 系 统 范围 设置 和 本 地 化 设置 组 合 到 配置 类 定义 中 。 
这 些 技术 可 能 很 有 用 , 因为 配置 文件 的 位 置 遵循 Python 查找 模块 的 规则 。 我 们 不 需要 自己 实现 配 


置 文件 的 搜索 。 
本 实例 将 构建 前 面 实 例 的 缺失 部 分 ， 即 1oaq_config_file() 函数 。 该 函数 的 模板 如 下 所 示 。 



















































































def load config file(config file) -> dict: 
'''Loads a configuration mapping object with contents 
of a given file. 


:param config_ file: File-like object that can be read. 
:returns: mapping with configuration parameter values 


# 细节 已 省 略 
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13.5.2 ”实战 演练 


用 以 下 代码 替换 10ad_config_file() 函数 中 的 “# 细节 已 省 略 ”一 行 。 

(1) 使 用 内 置 的 compile() 函数 编译 给 定 文件 中 的 代码 。compile () 函数 需要 源 文本 以 及 源 文 本 
的 文件 名 。 文 件 名 对 于 创建 有 用 且 正 确 的 回溯 消息 至 关 重要 。 

code = compile(config file.read(), config file.name, 'exec') 

(2) 执行 compile() 函数 创建 的 coae 对 象 。 这 个 步骤 需要 两 个 上 下 文 : 全 局 上 下 文 提供 之 前 导 
入 的 所 有 模块 以 及 ”puiltins_ 模块 ;局 部 上 下 文 创 建新 变量 。 


OLObals. SE ("uitins "So Puiltins 
'Path': Path, 
'platform': platform} 

ocals = (} 

exec (code, globals, locals) 

return locals['Configuration'] 


(3) 上 述 代码 只 返回 由 执行 模块 设置 的 局 部 变量 定义 的 configuration 类 ,任何 其 他 变量 都 将 被 
忽略 。 




























































































13.5.3 ”工作 原理 


Python 语言 的 细节 (语法 和 语义 ) 体现 在 compile() 和 exec() 函数 中 。exec () 函数 反映 了 
Python 处 理 全 局 变量 和 局 部 变量 的 方式 ， 该 函数 接受 了 两 个 命名 空间 。 全 局 namespace 实例 包括 
__builtins 以 及 可 以 在 文件 中 使 用 的 类 和 模块 。 

新 类 将 在 局 部 变量 命令 空间 中 创建 。 该 命名 空间 具有 _ aict “属性 ， 可 以 通过 字典 方法 访问 。 
因此 ， 可 以 按 名 称 提取 类 。 函 数 返回 在 整个 应 用 程序 中 使 用 的 类 对 象 。 

我 们 可 以 用 任意 类 型 的 对 象 作为 类 的 属性 。 前 面 的 示例 已 经 演示 了 映射 对 象 。 在 创建 类 级 属性 时 ， 
对 于 对 象 的 类 型 没有 任何 限制 。 

我 们 既 可 以 在 class 语句 内 执行 复杂 的 计算 ， 也 可 以 通过 计算 创建 从 其 他 属性 派生 的 属性 ， 还 
可 以 执行 任意 类 型 的 语句 来 创建 属性 值 ， 包 括 if 语句 和 for 语句 。 


































































































13.5.4 ”补充 知识 


使 用 类 定义 意味 着 可 以 利用 继承 来 组 织 配 置 值 。. 我 们 可 以 轻松 创建 Configuration 的 多 个 子 类 ， 
其 中 一 个 用 于 应 用 程序 。 配 置 如 下 所 示 


class Configuration: 





ds 



































Generic Configuration 
i 


Ti 
"schemes "Dttp", 
'netloc': 'forecast .weather.gov', 


‘path': '/shmrn.php' 
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class Bahamas (Configuration): 


Weather forecast for Offshore including the Bahamas 


auery = {'mz': ['AMZ117', 'AMZ2080']} 


class Cheaspeake (Configuration): 


Weather for Cheaspeake Bay 


query = {'mz': ['ANZ532']} 
这 意味 着 应 用 程序 必须 从 settings 模块 的 可 用 类 中 选择 一 个 适当 的 类 。 可 以 使 用 操作 系统 环境 
变量 或 命令 行 选项 来 指定 需要 使 用 的 类 名 。 为 此 ， 应 用 程序 的 执行 方式 如 下 所 示 : 
python3 some app.py -c settings.Chesapeake 
这 个 命令 将 在 settings 模块 中 查找 chesapeake 类。 处 理 过程 将 基于 特定 配置 类 中 的 详细 信息 。 
为 了 实现 这 种 设计 ， 必 须 扩展 load_config_file() 子 数 。 
为 了 选择 一 个 可 用 的 类 ， 我 们 将 为 类 名 提供 一 个 额外 的 参数 。 
import importlib 
def load_ config module (name): 
module_name, ,， Class_name = name.rpartition('.') 


settings_module = importlib.import _ module (module name) 
return vars (settings_module) [class_name] 


我 们 使 用 了 高 级 的 importlib 模块 ， 而 不 是 手动 编译 和 执行 模块 。 这 个 模块 实现 了 import 语 
句 语 义 。 请 求 的 模块 被 导入 、 编 译 和 执行 ， 生 成 的 模块 对 象 将 被 赋值 给 变量 名 settings_module。 

然后 ， 可 以 查看 模块 的 变量 ， 并 选 出 所 请 求 的 类 。 内 置 函数 vars () 将 从 模块 、 类 甚至 局 部 变量 
中 提取 内 部 字典 。 

loag_config_file() 水 数 的 使 用 方法 如 下 所 示 : 


>>> configuration = load config module('settings.Chesapeake') 
>>> configuration. doc .strip() 

'Weather for Cheaspeake Bay' 

>>> configuration.query 

{'mz': ['ANZ532']} 

>>> configuration.url['netloc'] 

'forecast .weather .gov' 


我 们 在 settings 模块 中 找到 了 chesapeake 配置 类 。 


配置 表示 
使 用 这 种 类 的 问题 在 于 ， 类 的 默认 显示 不 是 很 详细 。 当 打印 配置 时 ， 结 果 如 下 所 示 : 


>>> print (configuration) 
<class 'settings.Chesapeake'> 


几乎 没有 任何 有 用 的 信息 ， 不 足以 进行 调试 。 
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可 以 使 用 vars () 函数 查看 更 多 详细 信息 。 但 是 , vars () 函数 只 显示 局 部 变量 , 不 显示 继承 变量 。 


>>> pprint (vars (configuration)) 

mappingproxy({'_ doc ': '\\n Weather for Cheaspeake Bay\\n py 
”module ': 'settings', 
'query': {'mz': ['ANZ532']}}) 


这 种 方法 虽然 比 之 前 的 好 ， 但 是 仍然 不 完善 。 
为 了 查看 所 有 设置 ， 需 要 一 些 更 复杂 的 技术 。 有 意思 的 是 ， 我 们 不 能 简单 地 为 这 个 类 定义 
repr () 方 法 ， 因 为 在 类 中 定义 的 方法 将 应 用 于 该 类 的 实例 ， 而 不 是 类 本 身 。 
我 们 创建 的 每 个 类 对 象 都 是 内 置 的 type 类 的 实例 。 可 以 使 用 元 类 来 调整 type 类 的 行为 方式 ， 
并 实现 更 好 的 __repr__() 方 法 ,该 方法 可 以 查看 所 有 父 类 的 属性 。 
我 们 将 用 _repr_ 扩展 内 置 类 型 来 更 好 地 显示 配置 。 




































































class ConfigMetaclass (type): 
def _ repr__(self): 
name = (super()._ name + '(! 
+ ', '.join(b._ name _ for b in super()._ bases ) + ')') 
base_values = {a:V 
for base in reversed(super(). mro  ) 
for n, Vv in vars(base).items() 
if not n.startswith('_')} 
values_text = [' {0} = {1!r}'.format (name, value) 
for name, value in base values.items()] 
return '\n'.join(["class {}:".format (name)] + values_text) 














类 的 名 称 可 以 从 超 类 type 的 _name ”属性 获得 , 其 中 也 包括 基 类 的 名 称 , 这 样 可 以 显示 配置 类 
的 继承 层次 结构 。 

base_values 由 所 有 基 类 的 属性 构建 。 每 个 类 都 按照 方法 解析 顺序 ( method resolution order， 
MRO ) 的 相反 顺序 进行 检查 。 以 反 向 MRO 加 载 所 有 属性 值 意味 着 首先 加 载 所 有 默认 值 ， 然 后 使 用 子 
类 的 值 覆 盖 默 认 值 。 

缺少 _ 前 级 的 名 称 将 被 添加 ， 具 有 _ 前 级 的 名 称 将 被 忽略 。 

最 终 得 到 的 结果 值 用 于 创建 一 个 类 似 于 类 定义 的 文本 表示 ， 它 不 是 原始 类 的 源 代码 ， 只 是 原始 类 
定义 的 实际 效果 。 

使 用 这 个 元 类 的 configuration 类 的 层次 结构 如 下 所 示 。 基 类 configuration 包含 元 类 并 提 
供 默认 定义 。 子 类 使 用 特定 环境 或 上 下 文 所 特有 的 值 扩展 这 些 定义 。 


class Configuration (metaclass=ConfigMetaclass): 




































































unchanged = 'default' 
override = 'default' 

feature override = 'qefault' 
feature = 'default' 


class Customized (Configuration): 
override = 'customized' 
feature_ override = 'customized' 


我 们 可 以 利用 Python 多 重 继承 的 所 有 功能 来 构建 configuration 类 定义 , 这样 可 以 将 不 同 功 能 
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的 详细 信息 组 合成 单个 配置 对 象 。 





13.5.5 “延伸 阅读 


口 第 6 章 和 第 7 章 介绍 了 类 的 定义 。 
13.6 ”设计 可 组 合 的 脚本 


许多 大 型 应 用 程序 实际 上 由 多 个 较 小 的 应 用 程序 组 合 而 成 。 在 企业 术语 中 ,它们 通常 被 称 为 包含 
单个 命令 行 应 用 程序 的 应 用 程序 系统 。 

一 些 复杂 的 大 型 应 用 程序 包含 许多 命令 。 例 如 ，Git 应 用 程序 有 许多 单独 的 命令 ， 如 git pul1、 
git commit 和 git push。 这 些 命令 也 可 以 被 看 作 单 独 的 应 用 程序 ， 它 们 是 整个 Git 应 用 程序 系统 
的 一 部 分 。 

应 用 程序 起 初 可 能 只 是 单独 的 Python 脚本 文件 的 集合 。 在 随后 的 进化 过 程 中 , 可 能 需要 重 构 脚 本 
以 组 合 功能 ， 并 从 较 旧 且 各 自 独 立 的 脚本 创建 新 的 复合 脚本 。 此 外 ， 还 可 能 有 另外 一 种 途径 ， 大 型 应 
用 程序 也 可 能 被 分 解 并 重 构成 新 的 应 用 程序 。 

如 何 设计 一 个 脚本 使 未 来 的 组 合 和 重 构 尽 可 能 简单 ? 


13.6.1 准备 工作 


我 们 需要 区 分 Python 脚本 的 几 种 功能 设计 。 
口 前 面 已 经 介绍 了 采集 输入 的 几 个 方面 。 
四 从 命令 行 界面 和 环境 变量 获取 高 度 动 态 的 输入 ， 请 参阅 5.5 节 。 
晶 从 文件 更 改 配置 选项 ， 请 参阅 13.2 节 、13.3 节 和 13.4 节 。 
和 读 取 输入 文件 ， 请 参阅 9.5 节 、9.6 节 、9.7 节 、9.8 节 和 9.9 节 。 
口 产生 输出 的 几 个 方面 如 下 。 
和 @ 创建 日 志 并 提供 支持 审计 、 控 制 和 监测 的 其 他 功能 。13.7 节 将 介绍 其 中 一 些 相关 内 容 。 
和 @ 创建 应 用 程序 的 主要 输出 。 可 能 会 使 用 与 解析 输入 相同 的 库 模 块 打印 或 写 入 输出 文件 。 
口 应 用 程序 的 核心 处 理 。 这 些 功 能 是 从 各 种 输入 解析 和 输出 格式 中 分 离 出 来 的 基本 功能 。 
这 种 关注 点 分 离 思想 建议 , 无 论 多 么 简单 ， 任 何 应 用 程序 都 应 设计 为 多 个 独立 的 函数 。 这 些 函数 
应 该 组 合 为 一 个 完整 的 脚本 ， 这 样 可 以 将 输入 和 输出 与 核心 处 理 过 程 分 离开 。 处 理 过 程 是 我 们 经 常 想 
要 重用 的 部 分 ， 而 输入 和 输出 格式 应 当 易于 修改 。 
本 实例 将 以 创建 演示 掷 蜗 子 的 简单 应 用 程序 为 例 。 每 个 蜗 子 序列 都 将 遵循 Craps 游戏 的 规则 。 规 
则 如 下 。 
(1) 两 个 骨 子 的 第 一 搓 叫 作出 场 掷 。 
a. 骨 子 的 点 数 为 2、3 或 12 叫 作 立即 输 。 序 列 具 有 单个 值 ， 例 如 [(1，1) ]。 
b. 般 子 的 点 数 为 7 或 11 叫 作 立 即 赢 。 这 个 序列 也 具有 单个 值 ， 例 如 [(3，4) 1。 | 
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(2) 其 他 任何 数字 将 创建 一 个 点 数 。 序 列 以 点 数 开 始 ， 并 继续 添加 点 数 ， 直 到 点 数 为 7 或 者 再 次 
出 现 第 一 次 掷 出 的 点 数 。 
a. 最 后 的 点 数 为 7 代表 输 了 ， 例 如 [(3，1)，(3，2)，(1，1)，(5，6)，(4，3)]。 
b. 最 后 的 点 数 与 第 一 次 掷 出 的 点 数 相 同 代 表 赢 了 。 至 少 需要 掷 两 次 仍 子 。 掷 货 子 的 次 数 没有 
上 限 ， 例 如 [(3，1)，(3，2)，(1，1)，(5，6)，(1，3)]。 
输出 是 一 个 序列 。 序列 具有 不 同 的 结构 , 有 些 是 短 列 表 , 有 些 是 长 列表 。 该 场景 最 适合 使 用 YAML 
文件 。 
输出 由 两 个 输入 控制 ， 即 创建 样本 的 数量 ,以 及 是 否 为 随机 数 生 成 器 设 定 种 子 值 。 固 定 的 种 子 值 
更 便于 测试 。 



























































13.6.2 ”实战 演练 


(1) 将 所 有 输出 显示 分 为 两 大 领域 。 
a. 函数 (或 类 )， 不 执行 处 理 但 显示 结果 对 象 。 
b. 日 志 记录 ， 可 能 用 于 调试 、 监 控 、 审 计 或 其 他 一 些 控制 。 日 志 记 录 是 一 个 跨 切 面 的 关注 点 ， 
将 误 入 到 应 用 程序 的 其 余部 分 中 。 
本 实例 有 两 个 输出 : 点 数 序列 ， 以 及 一 些 确 认 处 理 是 否 正常 工作 的 附加 信息 。 对 每 个 掷 出 的 点 数 
计数 是 确定 模拟 仍 子 均匀 的 一 种 便捷 方法 。 
掷 仍 子 的 序列 需要 写 人 文件 。 因 此 ，write_rolls() 函数 使 用 一 个 迭代 器 作为 参数 。 示 例 函 数 
如 下 所 示 ， 该 函数 将 迭代 和 转 储 YAML 格式 的 文件 : 


def write rolls(output_ path, roll_iterator): 
face_count = Counter() 
with output_ path.open('w') as output_file: 
foK EOlLL ‘irr FoOll iterator: 
output_file.writel( 
yaml .dump ( 
TOLLS 
default_flow_style=True, 
explicit_start=True)) 
for dice in roll: 
face_count[sum(dice)] += 1 
return face_count 


监控 输出 应 当 显 示 用 于 控制 处 理 的 输入 参数 ， 还 应 该 提供 说 明 均 匀 的 计数 。 


def summarize (configuration, counts): 
print (configuration) 
print (counts) 


(2) 将 应 用 程序 的 基本 处 理 设计 (或 重 构 ) 为 一 个 单独 的 函数 。 

a， 所 有 输入 都 是 参数 。 

b. 所 有 输出 都 由 return 或 者 yiela 语句 产生 。 使 用 return 语句 创建 单个 结果 。 使 用 yiela 
语句 生成 一 个 迭代 多 个 结果 的 序列 。 
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本 实例 很 容易 将 核心 功能 重 构 为 一 个 函数 ,该 函数 生成 一 个 迭代 值 的 序列 。 输 出 函数 使 用 的 迭代 
器 如 下 所 示 : 


def roll_iter(total_ games, seed=None): 
random. seed (seed) 
for i in range(total_games): 
sequence = craps_game() 
yield sequence 


这 个 函 攻 依赖 craps_game () 函数 来 生成 请 求 数量 的 样本 。 每 个 样本 都 是 一 盘 完整 的 游戏 ， 显示 所 
有 的 骨 子 记录 。 这 个 函数 为 低级 函数 提供 了 face_count 计数 器 ， 用 于 累计 总 和 来 确认 一 切 正常 。 

craps_game () 图 数 实现 了 Craps 游戏 规则 ， 生 成 搓 一 次 或 多 次 货 子 的 点 数 的 单个 序列 。 这 个 序 
列 包含 了 一 1 点 数 。 稍 后 将 介绍 craps_game () 函数 。 

(3) 重 构 设 计 ， 将 所 有 输入 采集 到 收集 各 种 输入 源 的 函数 (或 类 )。 输 入 源 可 能 包括 环境 变量 、 命 

行 参数 和 配置 文件 ， 也 许 还 包括 多 个 输入 文件 的 名 称 。 


def get_options (argv): 
parser = argparse.ArgumentpParser () 
parser.add argument ('-s', '--samples', type=int) 
parser.add argument ('-o', '--output') 
options = parser.parse_args (argV) 





















































options.output_path = Path(options.output) 


if "RANDOMSEED" in os.environ: 
seed text = os.environ["RANDOMSEED"] 
Es 
options.seed = int (seed_ text) 
except ValueError: 
Sys.exit ("RANDOMSEED={0!r} invalid".format (seed_ text)) 
else: 
options.seed = None 
return options 


这 个 函数 不 但 收集 命令 行 参数 ， 还 检查 环境 变量 的 os .environ 集合 。 

参数 解析 器 将 处 理解 析 --samples 和 --output 选项 的 细节 。 可 以 利用 argparse 的 其 他 功能 
更 好 地 验证 参数 值 。 

output_path 的 值 由 --output 选项 的 值 创建 。 类 似 地 ，RANDOMSEED 环境 变量 的 值 经 过 验证 
后 被 添加 到 options 命名 空间 中 。options 对 象 的 这 种 用 法 将 所 有 的 参数 保存 在 一 个 地 方 。 

(4) 编写 最 终 的 main () 函数 ， 使 其 包含 之 前 的 3 个 元 素 ， 并 创建 最 终 的 主 脚本 。 


def main(): 

options = get_options(sys.argv[1:]) 

face_ count = write rolls(options.output path, roll_iter(options.samples, 
options.seed)) 

summarize(options, face_ count) 


main () 函数 将 应 用 程序 的 各 个 方面 整合 在 一 起 ,解析 命令 行 和 环境 选项 ,并 创建 一 个 监控 计数 器 。 
roll_iter () 函数 是 核心 处 理 过程 ， 接 受 各 种 选项 ， 并 生成 点 数 序列 。 | 
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roll_iter() 国 数 的 主要 输出 由 write_rolls() 收 集 ， 并 写 人 给 定 的 输出 路 径 。 控 制 输出 由 单 





独 的 函数 写 和 信 ， 以 便 在 不 影响 主 输出 的 情况 下 更 新 技术 汇总 。 





13.6.3 ”工作 原理 
输出 如 下 所 示 ; 


Slott$ Python3 ch13 _r05.py --samples 10 --output=x.yaml 





Namespace(output='x.yaml', output path=PosixPath('x.yaml'), samples=10, 


seed=None) 


Counter({5: 7, 6: 7, 7: 7, 8: 5, 4: 4, 9: 4, 11: 3, 10: 1, 


Slott$ more x.yaml 

--- [[5, 4], [3, 4]] 

sa [3s 5 LE; “3 LL ds [Dr .31 
--- [[3, 2], [2, 4], [6, 5], [1, 6]] 


--- [[1, 3], [4, 1], [1, 4], [5, 6], [6, 5], [1, 5], [2， 


--- [[3, 5], [4, 1], [4, 2], [3, 1], [1, 4], [2, 3], [2， 
--- [[2, 2], [1, 5], [5, 5], [1, 5], [6, 6], [4, 3]] 


6]] 





命令 行 请 求 了 10 个 样本 ， 并 指定 一 个 输出 文件 xyaml。 监 控 输出 是 一 个 简单 的 选项 转 储 ， 它 显 





示 了 参数 的 值 以 及 options 对 象 中 设置 的 附加 值 。 





监控 输出 还 包括 10 个 样本 的 计数 。 该 输出 说 明 点 数 6、7 和 8 出 现 得 较 频繁 ，3 和 12 出 现 的 频率 





则 较 低 。 

本 实例 的 中 心 前 提 是 关注 点 分 离 。 处 理 过 程 有 3 个 不 同 的 方面 。 

口 输入 : 来 自命 令 行 和 环境 变量 的 参数 由 get_options () 函数 收 
获取 输入 ， 包 括 配 置 文件 。 























后 转 储 该 输出 。 




















时 。 这 个 函数 可 以 从 各 种 来 源 


口 输出 : 主 输出 由 write_rolls () 函数 处 理 。 另 一 个 监控 输出 累计 counter 对 象 的 总 和 ， 最 











口 处 理 : 应 用 程序 的 基本 处 理 转化 为 roll_iter () 函数 。 该 函数 可 以 在 各 种 上 下 文中 重复 使 用 。 





























本 实例 的 设计 目标 是 将 rol1_iter () 函数 与 其 他 应 用 程序 细节 分 离 。 其 他 应 用 程序 可 能 具有 不 











同 的 命令 行 参 数 或 不 同 的 输出 格式 , 但 是 可 以 重用 基本 算法 。 





例如 ， 男 一 个 应 用 程序 可 能 会 对 点 数 序列 进行 一 些 统计 分 析 ， 包 括 撕 骨 子 的 次 数 ， 以 及 输 启 的 最 
终结 果 。 我 们 可 以 假设 这 两 个 应 用 程序 为 generatorpy ( 之 前 讲 过 ) 和 overview_stats.py。 






































使 用 这 两 个 应 用 程序 创建 点 数 序列 并 对 其 进行 汇总 之 后 , 用 户 可 以 确定 将 创建 点 数 序列 和 统计 概 











览 组 合成 单个 应 用 程序 是 有 利 的 。 由 于 每 个 应 用 程序 的 各 个 方面 已 经 分 离 ， 因 此 重新 排列 功能 并 创建 


























from generator import roll_iter, craps_rules 
from overview_ stats import summarize 








新 应 用 程序 变 得 相对 容易 。 我 们 现在 可 以 从 以 下 两 个 导入 开始 ， 构 建 一 个 新 应 用 程序 : 





















































构建 这 个 新 应 用 程序 时 ,不 会 对 其 他 两 个 应 用 程序 进行 任何 修改 ,原始 应 用 程序 不 受 引 入 的 任何 


13.6 设计 可 组 合 的 脚本 
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新 功能 的 影响 。 

















更 重要 的 是 ， 新 应 用 程序 没有 涉及 任何 代码 的 复制 或 粘贴 。 新 应 用 程序 导入 了 可 以 工作 的 软件 ， 








即 修复 一 个 应 用 程序 所 做 的 更 改 也 将 修复 其 他 应 用 程序 中 的 潜在 bug。 





全 通过 复制 和 粘贴 重用 会 产生 技术 债务 。 要 避免 复制 和 粘贴 代码 。 

















通过 复制 代码 创建 新 应 用 程序 将 导致 混乱 。 对 一 个 副本 进行 的 任何 更 改 都 不 会 修复 另 

















个 副本 中 











的 潜在 bug。 当 对 一 个 副本 进行 更 改 时 ， 不 更 新 另 一 个 副本 ， 这 将 导致 代码 腐烂 ( code rot )。 


13.6.4 ”补充 知识 


在 上 一 节 中 , 我 们 跳 过 了 craps_rules () 函数 的 详细 信息 。 这 个 函数 创建 了 一 个 包含 一 盘 Craps 
游戏 的 点 数 序列 。 点 数 序列 的 长 度 不 太 容 易 确定 。 在 大 约 98% 的 游戏 中 ， 撕 骨 子 的 次 数 不 超 过 13 次 。 
规则 取决 于 两 个 骨 子 的 点 数 总 和 。 已 获取 的 数据 包括 两 个 贷 子 的 点 数 。 为 了 支持 这 些 细节 ， 需 


使 用 具有 这 两 个 相关 特性 的 nameatuple 实例 。 


Roll = namedtuple('Rol1ll', ('faces', 'total')) 
def roll (n=2): 
faces = list(random.randint (1, 6) for _ in range(n)) 


total = Sum(faces) 
return Roll(faces, total) 





rol1 () 函数 创建 了 一 个 具有 骨 子 点 数 序列 以 及 骨 子 总 点 数 的 namedtuple 实例 ,craps_game () 


函数 将 生成 足够 多 的 规则 来 返回 一 盘 完 整 的 游戏 。 


def craps_dgame() : 
come_out = roll() 
if "come out .total i172 .37 121: 
return [come_out.faces] 
elif come_ out.total in [7, 11]: 
return [come_out .faces] 
elif come_out .total in [4, 5, 6, 8, 9, 10]: 
sequence = [come_out.faces] 
next = roll() 
while next.total not in [7, come_out.totall]: 
sequence.append (next .faces) 
next = roll() 
sequence.append (next .faces) 
return sequence 
else: 
raise Exception("Horrifying Logic Bug") 


























craps_game () 函数 实现 了 Craps 的 规则 。 如 果 第 一 搓 的 点 数 是 2、3 或 12， 序列 只 








一 个 值 ， 


这 盘 游 戏 就 输 了 。 如 果 第 一 掷 的 点 数 是 7 或 11， 序列 也 只 有 一 个 值 ， 这 盘 游 戏 就 启 了 。 其 余 的 值 将 
创建 一 个 点 数 。 点 数 序 列 以 该 点 数 开始 。 继 续 撕 贷 子 ， 序列 继续 添加 点 数 ， 直 到 结束 点 数 为 7 或 起 


始点 数 。 
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设计 为 类 层次 结构 


roll_iter()、roll() 和 craps_game() 之 间 的 密切 关系 表明 ， 将 这 











类 定义 中 可 能 会 更 好 。 将 所 有 这 些 功 能 组 合 在 一 起 的 类 如 下 所 示 : 


class CrapsSimulator: 
def _ init__(self, seed=None): 
self.rng = random.Random(seed) 
self.faces = None 
self.total = None 





def roll(self, n=2): 


文 些 函 数 封装 到 一 个 单独 的 


self.faces = list(self.rng.randint(1, 6) for _ in range(n)) 


self.total = sum(self._faces) 


def craps_game (sel): 

self.roll() 

Tf self Cotala ii, -8:y, L211 
return [self.faces] 

ELLf" SELf: total in [7 Tl] 
return [self.faces] 

Elif. Self total dn [di 5, 6 8 9 L100s 
point, sequence = self.total, [self.faces] 
self.roll() 
while self.total not in [7, point]: 

sequence.append (self.faces) 
self.roll() 
sequence.append (self.faces) 
return sequence 

else: 

raise Exception("Horrifying Logic Bug") 


def roll_iter(total_games): 
for i in range(total_games): 
sequence = self.craps_game() 
yield sequence 





个 类 包含 模拟 器 的 初始 化 以 及 随机 数 生成 器 。 随 机 数 生 成 器 或 者 使 用 给 定 的 种 子 值 ， 或 者 使 用 
内 部 算法 选择 的 种 子 值 。rol1 () 方 法 将 设置 selft.total 和 self.faces 实例 变量 。 

















craps_game () 为 一 盘 Craps 游戏 产生 一 个 点 数 序列 。 该 函数 使 用 rol1l () 方 法 以 及 实例 变量 


self.total 和 self.faces 跟踪 般 子 的 状态 。 








roll_iter() 方 法 生成 游戏 序列 。 请 注意 ， 这 个 方法 的 签名 与 前 面 的 rol1l_iter () 函数 不 完全 


相同 。 这 个 类 分 离 了 随机 数字 初始 化 和 游戏 创建 算法 。 











作为 练习 ， 请 重 写 main()， 以 使 用 crapssimulator 类 。 由 于 方法 名 称 与 原始 函数 名 称 相似 ， 





此 重 构 应 该 不 是 很 复杂 。 


13.6.5 ”延伸 阅读 
口 关于 使 用 argparse 获取 用 户 输入 的 背景 信息 ， 请 参阅 5.5 节 。 
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口 关于 查找 配置 文件 的 详细 信息 ， 请 参阅 13.2 节 。 
口 13.7 节 将 介绍 1ogging 模块 。 
口 13.8 节 将 介绍 如 何 组 合 遵 循 本 实例 设计 模式 的 应 用 程序 。 


13.7 使 用 logging 模块 监控 和 审计 输出 


13.6 节 讨 论 了 应 用 程序 的 3 个 方面 : 
口 采集 输入 ; 
口 产生 输出 ; 
口 连接 输入 和 输出 的 基本 处 理 。 
应 用 程序 产生 以 下 几 种 输出 : 
口 主 输出 ， 帮 助 用 户 做 出 决定 或 者 采取 行动 ; 
口 监控 信息 ， 确 认 程 序 是 否 正常 运行 ; 
口 审计 摘要 ， 跟 踪 持 久 性 数据 库 中 状态 变化 的 历史 记录 ; 
口 错误 消息 ， 标 识 应 用 程序 错误 的 原因 。 
把 这 几 种 不 同方 面 的 输出 都 混合 在 写 和 人 标准 输出 的 print () 请求 中 是 不 太 合 理 的 。 事实 上 , 这 可 
能 会 导致 混乱 ， 因 为 太 多 不 同 的 输出 被 混合 成 单个 流 。 
操作 系统 提供 两 种 输出 文件 : 标准 输出 和 标准 错误 。 在 Python 中 ， 这 些 输出 以 名 称 为 sys.stdout 
和 sys.stderr 的 文件 出 现 。 默 认 情 况 下 ，print () 方 法 写 入 sys.stdout 文件 。 可 以 通过 修改 brint () 方 
法 ， 把 监控 信息 、 审 计 摘要 和 错误 消息 写 人 sys.stderr。 这 是 朝 正确 方向 迈 出 的 重要 一 步 。 
Python 提供 了 logging 包 ， 可 用 于 将 辅助 输出 定向 到 一 个 单独 的 文件 ， 也 可 用 于 格式 化 和 过 波 
辅助 输出 。 
如 何 正 确 使 用 1ogging? 


13.7.1 准备 工作 


13.6 节 讨 论 了 一 个 生成 YAML 文件 的 应 用 程序 。 本 实例 将 讨论 一 个 处 理 原 始 数据 并 生成 统计 汇总 
的 应 用 程序 。 这 个 应 用 程序 名 为 overview_stats.py。 
按照 分 离 输 入 、 输 出 和 处 理 过 程 的 设计 模式 ， 应 用 程序 的 main () 函数 如 下 所 示 : 
def main(): 
options = get_options(sys.argv[1:]) 
if options.output is not None: 
report_ path = Path (options.output) 
with report_ path.open('w') as result_file: 


process_all_ files(result_file, options.file) 
else: 


process_all files(sys.stdout, options.file) 


这 个 函数 将 从 各 种 来 源 获取 选项 。 如 果 已 经 提供 了 输出 文件 名 ,那么 就 使 用 with 语句 上 下 文 创 
建 输出 文件 。 然 后 ， 这 个 函数 将 处 理 所 有 命令 行 参数 文件 ， 作 为 收集 统计 信息 的 输入 。 
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如 果 没 有 提供 输出 文件 名 ,那么 这 个 函数 将 写 入 sys.stdout 文件 。 这 权 
使 用 操作 系统 shell 的 > 运算 符 重 定 向 来 创建 一 个 文件 。 





下 
蕉 
< 





示 输 出 ， 该 输出 可 以 

















main () 函数 依赖 于 process_all1_files() 畏 数 。process_all1_files() 困 数 遍 历 每 个 参数 文 











件 ， 并 从 每 个 参数 文件 中 收集 统计 信息 。process_all_files 


def process_all files(result_file, 
for source path in (Path(n) for n in file names): 
with source path.open() as source_ file: 
game_iter = yaml.load_ all (source_ file) 
statistics = gather_stats (game_iter) 





result_file.writel 


yaml .dump (dict (statistics), 


) 


() 函数 如 下 所 示 : 


explicit_start=True) 





process_all_files() 国 数 将 gather_stats () 应 用 于 file_names 迭代 中 的 每 个 文件 ,。 最终 





得 到 的 集合 将 写 人 给 定 的 result_file 文件 。 


各 上 述 函 数 将 处 理 和 输出 合并 在 一 个 理想 的 设计 中 。13.8 节 将 会 解决 这 个 设计 缺陷 。 
































def gather_stats (game_iter): 
counts = Counter() 
for game in game_ iter: 


if len(game) == 1 and sum(game[0]) 
outcome = "Joss" 

elif len(game) == 1 and sum(game{[0]) 
outcome = "win" 


elif len(game) > 1 and suml(game[-1]) 





基本 处 理 包含 在 gather_stats () 国 数 中 。 给 定 一 个 文件 路 径 , gather_stats() 函数 将 读 取 并 
该 文件 中 的 游戏 数据 。 然 后 , 将 得 到 的 汇总 对 象 写 人 整体 显示 , 或 者 追加 到 一 个 YAML 格式 的 汇 


outcome = "loss" 

elif len(game) > 1 and sum(game[0]) == sum(game[-1]): 
outcome = "win" 

else: 


raise Exception("Wait, 


event = (outcome, len (game)) 


counts[event] += 1 
return counts 





这 个 函数 包含 了 4 个 终止 游戏 的 规则 ， 并 确定 点 数 序列 适用 哪个 规则 。 首 先 ， 它 打开 给 定 的 源 文 











序列 。 




















件 , 并 使 用 10ad_all () 函数 遍历 所 有 YAML 文档 。 每 个 文档 都 是 一 盘 游 戏 ,表示 为 一 对 仍 子 的 点 数 

















这 个 函数 使 用 第 一 次 和 最 后 一 次 的 山子 点 数 来 确定 游戏 的 整体 结果 。 列 举 事件 所 有 逻辑 组 合 的 
规则 有 4 个 。 在 事件 中 ,如果 我 们 的 推理 有 错误 ， 则 会 抛 出 异常 ， 提 醒 我 们 某 个 特殊 情况 不 符合 设计 





游戏 被 简化 为 结果 和 长 度 的 单独 


山中 











有人 件 ， 这 些 信息 都 将 累积 到 一 个 counter 对 象 中 。 游 戏 的 结 
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和 长 度 是 我 们 计算 的 两 个 值 ， en ond 
我 们 几乎 分 离 了 所 有 与 文件 相关 的 关注 点 。gather_stats () 函数 可 以 与 任何 可 迭代 的 游戏 数据 
源 一 起 使 用 。 
应 用 程序 的 输出 如 下 所 示 。 该 输出 是 一 个 YAML 文档 ， 可 用 于 进一步 处 理 。 


slotts$ python3 ch13_r06.py x.yaml 























? !l!lpython/tuple [loss, 2] 

3 1 [loss, 3] 

? ee [loss, 4] 

? ee [loss, 6] 

? i [loss, 8] 

EE er [win, 1] 

访 迁 

? !l!lpython/tuple [win, 2] 

: 工 

? !l!lpython/tuple [win, 4] 

Pat 

? !l!lpython/tuple [win, 7] 

江 浊 

我 们 需要 把 日 志 记 录 功 能 插入 这 些 函 数 , 以 显示 正在 读 取 的 文件 , 以 及 处 理 文件 时 的 错误 或 问题 。 

此 外 ， 我 们 还 将 创建 两 个 日 志 : 一 个 日 志 包 含 详细 信息 ， 男 一 个 日 志 只 有 所 建文 件 的 最 小 摘要 。 
第 一 个 日 志 可 以 定向 到 sys.stderr， 当 程序 运行 时 ， 将 显示 在 控制 台 上 。 另 一 个 日 志 将 追加 到 一 个 长 期 
有 效 的 1og 文件 中 ， 涵 盖 应 用 程序 的 所 有 用 途 。 

满足 不 同 需求 的 一 种 方法 是 创建 两 个 日 志 记 录 器 ， 每 个 日 志 记 录 器 具有 不 同 的 意图 ,也 具有 不 同 
的 配置 。 另 一 种 方法 是 创建 一 个 日 志 记录 器 ， 并 使 用 Filter 对 象 区 分 每 个 日 志 记 录 咒 的 内 容 。 本 实 
例 将 专注 于 创建 两 个 不 同 的 日 志 志 记录 器， 因为 这 样 更 易于 开发 和 进行 单元 测试 。 

每 个 日 志 记录 器 都 具有 各 种 反映 消息 严重 性 的 方法 。1logging 包 定 义 的 严重 性 级 别 如 下 。 
D 调试 (DEBUG): 这 些 消息 通常 不 显示 ， 因 为 它们 的 目的 是 支持 调试 。 
口 信息 〈INFO): 这 些 消 息 提 供 有 关 正 常 处 理 的 信息 。 
口 警告 《WARNING): 这 些 消息 表示 处 理 可 能 会 出 现 问题 。 和 警告 的 最 合理 用 例 是 当 函 数 或 类 已 
被 弃 用 时 一 一 这 些 函 数 或 类 还 能 正常 工作 ,但 是 应 该 及 早 替换 。 这 些 信 息 通常 应 当 显 示 。 
口 错误 “ERROR): 处 理 无 效 ， 输 出 不 正确 或 不 完整 。 对 于 长 期 运行 的 服务 器 ， 一 个 请 求 可 能 
有 问题 ， 但 是 服务 器 还 可 以 继续 运行 。 
口 严重 (CRITICAL) : 严重 的 错误 级 别 。 一 般 来 说 ， 这 由 长 期 运行 的 服务 器 所 使 用 ， 表 示 服 务 

器 本 身 不 能 再 运行 ， 而 且 即 将 裔 溃 。 

与 严重 性 级 别 相关 的 方法 名 称 与 严重 性 级 别 相似 。 例 如 , 可 以 用 logging .info() 来 写 人 一 条 信 

息 级 消息 。 
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13.7.2 ”实战 演练 





















































(1) 首先 ， 在 现 有 函数 1 实现 基本 的 日 志 记 录 功 能 。i 这 意味 着 需要 导入 logging 模块 。 

import logging 

应 用 程序 的 其 余部 分 还 将 使 用 其 他 包 。 

import argparse 

import sys 

from pathlib import Path 

from collections import Counter 

import yaml 

(2) 创建 两 个 日 志 记 录 器 对 象 作 为 模块 的 全 局 变量 。 创 建 日 志 记 录 器 的 函数 可 以 在 创建 全 局 变量 
的 脚本 中 的 任何 位 置 使 用 。 一 个 位 置 是 脚本 的 头 部 ， 在 import 语句 之 后 。 另 一 个 常见 的 选择 是 接近 

















ZTPR 旦 - 


mr 





尾部 ， 但 在 任何 _ name 
块 作为 库 导入 ， 也 应 如 此 。 
志 记 录 器 具有 分 层次 的 名 称 。 


"脚本 处 理 过 程 之 外 。 应 当 始终 创建 这 


文 些 变 


即使 将 模 


本 


main 








旦 ， 














我 们 将 使 用 应 用 程序 名 称 和 带 有 内 容 的 后 缀 来 命名 记录 器 。 











overview_stats.detail 日 志 记录 器 包含 处 理 的 详细 信息 ; overview_stats.write 记录 央 标 识 
文件 读 取 和 文件 写 人 , 这 与 审计 日 志 的 思想 相似 , 因为 该 文件 会 在 输出 文件 集合 中 写 人 跟踪 状态 变化 。 
detail_log = logging.getLogger ("overView_stats.dqetail1") 


write_ log = logging.getLogger ("overview_ stats.write") 


























现在 不 需要 配置 这 些 记录 器 。 如 果 不 再 进一步 设置 ,那么 两 个 记录 器 对 象 将 默认 接受 单独 的 日 志 
条 目 ， 但 不 会 进一步 处 理 数据 。 
(3) 重 写 main () 函数 ， 汇 总 处 理 过 程 的 两 个 方面 。 使 用 write_1log 日 志 记 录 器 对 象 显示 新 文件 
的 创建 时 间 。 
def main(): 
options = get_options(sys.argv[1:]) 


if options.output is not None: 
report_path Path (options.output) 
with report_ path.open('w') as result_file: 
process_all_files(result_file, options.file) 
write_ log.info("wrote {}".format (report_patnh)) 
else: 
process_all_files(sys.stdout, 


options.file) 

















息 级 消 


[oy 


可 








我 们 添加 了 write _log.info("wrote {}".format (result_path)), 
和 人 记录 文件 写 入 的 日 志 








[e) 








(4) 重 写 process_all_files() 


def process_all_ files(result_ 
(Path(n 
read {}" 
with source path.open() 


for source path in 

detail_log.infol(" 

game_iter = 
statistics 


Yaml . 


函数 ， 以 在 读 取 文 件 时 提供 注释 。 


file, 
) 


file_ names): 

for n in file names): 
.format (source_path)) 
as source_file: 
load_all (source_ file) 


gather_stats (game_iter) 
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result_file.write( 
yaml .dump (dict (statistics), explicit_ start=True) 


) 


我 们 添加 了 detail_log.info("read {}".format (source_path)), 将 条 言 息 级 消息 写 





人 记录 文件 读 取 的 详细 日 志 


(5) gather_stats() 函数 可 以 添加 一 个 跟踪 正常 操作 的 日 志 行 。 另 外 ， 我 们 还 添加 了 一 个 记录 


逻辑 错误 的 日 志 人 心 末 条 上 日 o 


def gather_stats (game_iter): 
counts = Counter() 
for game in game_iter: 








if len(game) == 1 and sum(game[0]) in (2, 3, 12): 
outcome = "loss" 

elif len(game) == 1 and sum(game[0]) in (7, 11): 
outcome = "win" 

elif len(game) > 1 and sum(game[-1]) == 7: 
outcome = "loss" 

elif len(game) > 1 and sum(game[0]) == sum(game[-1]): 
outcome = "win" 

else: 
detail_log.error("problem with {}".format (game)) 


raise Exception("Wait, What?") 

event = (outcome, len(game)) 

detail_log.debug("game {} -> event {}".format (game, event)) 

counts[event] += 1 
return counts 


detail_log 日 志 记 录 器 用 于 收集 调试 信息 。 如 果 将 整个 日 志 记 录 级 别 设置 为 包含 调试 消息 ,， 那 
么 我 们 将 看 到 这 个 额外 的 输出 。 
(6) get_options() 函数 也 添加 了 调试 日 志 记 录 行 。 可 以 通过 十 在 日 志 中 显示 选项 来 帮助 诊断 问题 。 


def get_options (argv): 
parser = argparse.ArgumentpParser () 
parser.add _ argument ('file', nargs='*') 
parser.add _ argument ('-o', '--output') 
options = parser.parse_args (argV) 
detail_log.debug ("options: {}".format (options)) 
return options 


(7) 可 以 添加 一 个 简单 的 配置 来 查看 日 志 条 目 。 这 是 检查 日 志 记 录 的 第 一 步 ， 只 是 确认 有 两 个 日 
志 记 录 顺 并 且 已 正确 使 用 。 






























































本 name., Ss aL 
lJogging.basicConfig(stream=sys.stderr, level=logging .INFO) 
main() 











日 志 记 录 配 置 构建 了 默认 的 处 理 对 象 ， 这 个 处 理 对 象 只 是 打印 给 定 流 上 的 所 有 日 志 消息 。 该 
ee 它 将 适用 于 根 日 志 记 录 器 的 所 有 子 记 录 器 。 因 此 ， 在 前 面 的 代码 
中 的 四 日 志 记 录 吕 都 将 重 定向 到 同一 个 流 。 

行 这 个 脚本 的 示例 如 下 : 





昭 
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Slotts$ python3 ch13_ r06a.py -o sum.yaml x.yaml 
INFO:overview stats.detail:read x.yaml 
INFO:overview stats.write:wrote sum.yaml 


日 志 有 两 行 , 每 行 都 有 一 个 INFO 严重 性 级 别 。 第 一 行 来 自 overview_stats .detail 日 志 记 录 器 。 
二 行 来 自 overview_stats.write 日 志 记录 需 。 默 认 配 置 将 所 有 日 志 记录 器 发 送 到 sys.stderr。 

(8) 为 了 将 不 同 的 日 志 记录 器 路 由 到 不 同 的 目的 地 , 需要 一 个 比 basicconfig () 函数 更 复杂 的 配 
置 。 我 们 将 使 用 logging .config 模块 。 dictconfig() 方 法 可 以 提供 一 整套 配置 选项 。 最 简单 的 方 
法 是 用 YAML 格式 编写 配置 ， 然 后 使 用 yaml . 10ad () 函数 将 配置 转换 为 aict 内 部 对 象 。 




















































































































import logging.config 
config yaml] = ! 
version: 1 
formatters: 
default: 
style: tx 
format: "{levelname}: {name}:{message}" 
# Example: INFO:overview stats.detail:read x.yaml 


timestamp: 


style: "{" 
format: "{asctime}//{levelname}//{name}//{message}" 


handlers: 
console: 
class: logging.StreamHandler 


stream: ext://sys.stderr 
formatter: default 

file: 
class: logging.FileHandler 
filename: write.log 
formatter: timestamp 


loggers: 
overview_ stats.detail: 


handlers: 

可 console 
overview_stats.write: 

handlers: 

一 file 

console 


root: 
level: INFO 








包围 ， 这 样 就 可 以 根据 需要 写 出 尽 可 能 多 的 文本 。 我 们 使 用 YAML 








Ud 


YAML 文档 用 三 引号 字符 
在 大 块 文本 中 定义 了 5 项 内 容 。 
口 version 键 的 值 必须 为 1。 
口 formatters 键 的 值 定义 了 日 志 格式 。 如 果 未 指定 日 志 格 式 ， 则 默认 格式 只 显示 消息 体 ， 而 

没有 任何 严重 性 级 别 或 日 志 记 录 器 信息 。 
加 default 格式 化 器 反映 了 由 basicconfig() 国 数 创建 的 格式 。 
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曙 timestamp 格式 化 器 是 一 个 更 复杂 的 格式 ， 包 括 记录 的 日 期 时 间 戳 。 为 了 使 文件 更 容易 解 
析 ， 它 使 用 了 列 分 隔 符 /7/。 

口 handlers 键 定 义 了 两 个 记录 器 的 两 个 处 理 器 。console 处 理 器 写 人 sys.stderr 流 。 我 们 指定 
了 该 处 理 咒 将 使 用 的 格式 化 器 。 此 定义 与 basicconfig() 函数 创建 的 配置 类 似 。 
file 处 理 器 写 和 人 一 个 文件 。 打 开 文 件 的 默认 模式 是 a, 将 追加 到 文件 , 文件 的 大 小 没有 上 限 。 
其 他 处 理 器 可 以 交替 使 用 多 个 文件 ， 每 个 文件 的 大 小 有 限制 。 我 们 提供 了 一 个 明确 的 文件 名 ， 

并 且 格 式 化 器 将 比 控制 台 显示 更 多 的 细节 。 

口 loggers 键 为 应 用 程序 即将 创建 的 两 个 日 志 记 录 器 提供 了 配置 。 任 何 名称 以 overview_ 
stats.detail 开头 的 日 志 记录 器 都 只 能 由 console 处 理 器 处 理 。 任 何 名 称 以 overview_ 
stats.write 开头 的 记录 需 都 将 由 file 处 理 器 和 console 处 理 器 处 理 。 

口 root 键 定 义 了 顶层 日 志 记 录 器 。 它 的 名 称 为 '' ( 空 字 符 串 )， 以 备 在 代码 中 引用 。 设 置 根 日 
志 记 录 器 的 级 别 将 为 该 记录 器 的 所 有 子 记录 器 设置 级 别 。 

(9) 使 用 配置 包 衰 main () 函数 ， 如 下 所 示 。 
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logging.config.dictConfig(yaml.load(config yam1l) ) 
main() 


logging.shutdown() 


(10) 上 述 代 码 将 在 已 知 状态 下 启动 日 志 记录 ， 然 后 执行 应 用 程序 的 处 理 。 最 后 ， 完 成 所 有 日 志 
录 的 缓冲 并 正确 关闭 所 有 文件 。 


13.7.3 ”工作 原理 


志 记 录 引 入 应 用 程序 有 3 个 方面 : 

口 es 志 记 录 吉 对象; 

口 在 重要 的 状态 变化 附近 放置 日 志 请 求 ; 

口 配置 整个 日 志 记录 系统 。 

创建 日 志 记 录 器 的 方法 有 很 多 种 ,也 可 以 不 创建 日 志 记 录 器 。 在 默认 情况 下 ,可 以 使 用 logging 

模块 本 身 作 为 日 志 记 录 器 。 例 如 ， 如 果 使 用 1ogging.info() 方 法 ,那么 将 隐 式 使 用 根 日 志 记 录 器 。 
更 常见 的 方法 是 创建 一 个 与 模块 名 称 相同 的 日 志 记录 吉 。 


logger = logging.getLogger(_ name  ) 


对 于 顶层 主 脚 本 ， 名 称 为 main 。 对 于 导入 的 模块 ， 名 称 将 匹配 模块 名 称 。 
在 更 复杂 的 应 用 程序 中 ， 可 能 会 有 各 种 不 同 的 日 志 记 录 器 。 在 这 些 情况 下 ， 简 单 地 在 模块 之 后 命 
名 日 志 记录 器 可 能 无 法 提供 所 需 的 灵活 性 。 

志 记 录 器 有 两 种 命名 方式 。 人 用 程序 中 ， 最 好 选择 其 中 之 一 并 坚持 使 用 。 

口 遵循 包 和 模块 的 层次 结构 。 这 意味 着 特定 于 某 个 类 的 日 志 记 录 器 可 能 有 一 个 类 似 package. 
module.class 的 名 称 。 同 一 模块 中 的 其 他 类 将 共享 一 个 通用 的 父 日 志 记 录 器 名 称 。 然 后 可 
以 为 整个 包 、 一 个 特定 模块 或 一 个 类 设置 日 志 记 录 级 别 。 

口 遵循 基于 功能 或 用 例 的 层次 结构 。 顶 层 名 称 将 区 分 日 志 的 功能 或 目的 。 顶 层 日 志 记 录 器 的 名 Le 




















































































































488 第 13 章 应 用 程序 集成 




















称 可 能 为 event 、audit 或 者 debugo 这 样 一 来 ， 所 有 的 审计 志 记 录 器 都 将 具有 以 audit. 
开头 的 名 称 。 这 样 可 以 轻松 地 将 给 定 父 文件 夹 中 的 所 有 日 志 记 录 器 路 由 到 特定 的 处 理 器 。 

本 实例 使 用 了 第 一 种 命名 方式 。 日 志 记 录 器 的 名 称 与 软件 架构 相似 。 在 所 有 重要 的 状态 变化 附近 
放置 日 志 记 录 请 求 简单 明了 。 日 志 的 各 种 有 趣 的 状态 变化 如 下 。 
口 对 持久 性 资源 的 任何 更 改 都 可 以 包含 信息 级 消息 。 任 何 操作 系统 层面 的 更 改 (通常 是 对 文件 
系统 的 更 改 ) 都 适合 记录 日 志 。 同样 , 数据 库 更 新 和 更 改 Web 服务 状态 的 请 求 都 应 该 被 记录 。 
口 每 当 出 现 持续 状态 变化 的 问题 时 ， 应 该 有 一 个 错误 级 消息 。 任 何 操作 系统 级 异常 在 被 捕获 和 
处 理 时 都 可 以 被 记录 。 

口 在 长 时 间 的 复杂 计算 中 ， 在 导 和 人 赋值 语句 之 后 记录 调试 级 消息 可 能 会 有 所 帮助 。 在 某 些 情况 

下 ， 该 消息 仅 是 一 个 提示 ， 说 明 复杂 计算 可 能 需要 分 解 为 多 个 函数 ， 以 便 分 开 测试 。 

口 对 内 部 应 用 程序 资源 的 任何 更 改 均 应 得 到 一 条 调试 级 消息 ， 这 样 就 可 以 通过 日 志 跟踪 对 象 状 

态 变化 。 

口 当 应 用 程序 进入 错误 状态 时 ， 应 有 日 志 记 录 。 这 种 情况 通常 由 异常 导致 。 在 某 些 情况 下 ， 将 
会 使 用 assert 语句 检测 程序 的 状态 ， 并 在 出 现 问题 时 抛 出 异常 。 某 些 异 常 被 划 为 异常 级 别 。 
然而 ， 某 些 异 常 只 需要 调试 级 消息 ， 因 为 异常 被 静默 或 转换 了 。 某 些 异 常 可 能 被 划 为 错误 级 
别 或 严重 级 别 。 

日 志 记 录 的 第 三 个 方面 是 配置 日 志 记 录 器 ， 以 便 将 请 求 路 由 到 相应 的 目的 地 。 默 认 情 况 下 ， 根 本 
就 没有 配置 ， 日 志 记录 器 将 静 静 地 创建 日 志 事 件 ， 但 不 会 显示 它们 。 

通过 最 小 配置 ， 可 以 在 控制 台 查看 所 有 日 志 事 件 。 这 可 以 通过 basicconfig () 方 法 实现 ， 在 覆 
盖 了 大 量 简单 用 例 的 情况 下 ,没有 任何 真正 的 麻烦 。 我 们 可 以 使 用 文件 名 来 提供 命名 文件 ， 而 不 是 一 
个 流 。 也 许 最 重要 的 功能 是 提供 一 种 简单 的 方法 ， 通 过 从 basicconfig() 方 法 在 根 日 志 记录 器 上 设 
置 日 志 记录 级 别 来 启用 调试 。 

本 实例 中 的 示例 配置 使 用 了 两 个 常用 的 日 志 处 理 器 ，SstreamHandler 类 和 FileHandler 类 。 
类 似 的 处 理 器 还 有 十 几 个 ， 每 个 处 理 器 都 具有 用 于 收集 和 发 布 日 志 消 息 的 功能 。 






























































































































































































































































13.7.4 延伸 阅读 


口 本 实例 应 用 程序 的 补充 部 分 ， 请 参阅 13.6 节 。 


13.8 将 两 个 应 用 程序 组 合 为 一 个 复合 应 用 程序 


13.6 节 讨 论 了 一 个 简单 的 应 用 程序 ， 它 通过 模拟 一 个 过 程 来 创建 统计 信息 集合 。13.7 节 讨 论 了 一 
个 汇总 统计 信息 集合 的 应 用 程序 。 本 实例 将 组 合 这 两 个 应 用 程序 来 创建 一 个 复合 应 用 程序 ， 它 既 能 创 
建 统计 数据 又 能 汇总 统计 数据 。 

组 合 这 两 个 应 用 程序 的 常见 方法 有 以 下 几 种 。 
口 shell 脚本 可 以 先 运行 模拟 应 用 程序 ， 然 后 再 运行 分 析 应 用 程序 。 
口 Python 程序 可 以 代替 shell 脚本 ， 使 用 runpy 模块 运行 每 个 程序 。 











































































































13.8 ”将 两 个 应 用 程序 组 合 为 一 个 复合 应 用 程序 
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口 可 以 根据 每 个 应 用 程序 的 基本 功能 构建 一 个 复合 应 用 程序 。 
13.6 节 仔细 研究 了 应 用 程序 的 3 个 方面 : 
口 采集 输入 ; 
口 产生 输出 ; 
口 连接 输入 和 输出 的 基本 处 理 。 


本 实例 将 讨论 一 种 设计 模式 ,这 种 设计 模式 可 以 将 多 个 Python 语言 组 件 组 合 为 一 个 更 大 规模 的 应 


用 程序 。 





如 何 组 合 多 个 应 用 程序 来 创建 一 个 复合 应 用 程序 呢 ? 
13.8.1 准备 工作 


在 13.6 节 和 13.7 节 中 ,我 们 遵循 了 分 离 采 集 输入 、 产 生 输 出 和 基本 处 理 

















模式 的 目标 是 将 核心 处 理 集 中 在 一 起 ， 并 将 它们 组 合 和 重组 为 更 高 层次 的 结构 。 


请 注意 ， 两 个 应 用 程序 之 间 有 一 个 细微 的 不 匹配 之 处 。 可 以 借 月 
个 词 来 描述 ， 即 阻抗 失 配 (impedance mismatch )。 在 电气 工程 中 ， 这 是 一 个 电路 设计 问题 ， 通 常 使 用 



































变压器 来 解决 。 变 压 咒 可 以 用 于 匹配 电路 元 件 之 间 的 阻抗 。 


在 数据 库 工 程 中 ， 这 种 























的 设计 模式 。 这 种 设计 


有 数据库 工程 以 及 电气 工程 中 的 一 








问题 表现 在 数据 库 具 有 规范 化 的 平面 文件 "， 但 是 编程 语言 使 用 了 结构 丰 


富 的 复杂 对 象 。 对 于 SQL 数据 库 ， 这 是 一 个 常见 问题 ， 如 SQLAlchemy 之 类 的 包 用 作 ORM ( object- 
relational management， 对 象 关 系 管理 ) 层 。 该 层 是 纯 文本 数据 库 行 (通常 来 自 多 个 表 ) 和 复杂 Python 
结构 之 间 的 转换 絮 。 


这 个 示例 表现 出 的 阻抗 失 配 问题 是 构建 复合 应 用 程序 的 一 个 重要 问题 。 























高 于 汇总 应 用 程序 。 解 决 这 个 问题 的 方法 有 以 下 几 种 。 








口 一 对 一 : 


拟 ， 然 后 将 其 处 理 














模拟 应 用 程序 的 运行 频率 



































口 全 部 重新 设计 : 这 种 方法 可 能 不 是 一 个 明智 的 选择 ， 因 为 两 个 组 件 应 用 程序 已 经 建立 了 用 户 
基础 。 在 其 他 情况 下 ， 新 的 用 例 是 一 个 机 会 ， 可 以 彻底 修复 和 偿还 一 些 技术 债务 。 
































这 意味 着 复合 应 用 程序 将 运行 模拟 应 月 



































口 添加 迭代 器 : 这 种 方法 意味 着 在 构建 复合 应 用 程序 时 ， 将 添加 一 个 for 语句 来 进行 许多 次 模 
为 一 个 汇总 。 这 种 方法 与 原始 设计 意图 相似 。 

程序 ， 并 将 这 个 单独 的 模拟 输出 提供 
应 用 程序 。 这 种 方法 通过 改变 结构 来 执行 更 多 的 汇总 ， 汇 总 可 能 需要 组 合成 预期 的 单一 结果 。 


给 汇总 

















这 些 选择 取决 于 引起 创建 复合 应 用 程序 的 用 户 故 事 , 也 可 能 取决 于 已 建立 的 用 户 基础 。 对 于 本 实 


例 ， 我 们 假设 用 








计 方法 来 创建 一 个 复合 处 理 过 程 。 


作为 练习 ， 读 者 应 该 探索 其 他 设计 方法 。 假 设 
意 选择 一 对 一 设计 方法 。 


么 用 户 可 能 更 愿 

















用 户 和 希望 在 


户 已 经 认识 到 ，1000 个 样本 的 1000 次 模拟 运行 是 标准 的 ， 并 希望 遵循 添加 迭代 器 设 


次 模拟 中 运行 1 000 000 个 样本 ， 那 


本 实例 还 将 介绍 男 一 种 选择 。 本 实例 将 执行 分 布 在 多 个 并 发 工作 进程 中 的 100 次 模拟 运行 。 这 将 
缩短 创建 100 万 个 样本 的 时 间 。 这 种 方法 是 添加 迭代 器 复合 设计 的 一 个 变 体 。 











中 平面 文件 ( flat data )， 指 结构 化 的 数据 库存 储 为 非 结构 化 文件 〈 例 如 csv、txt 文 件 格式 )。 一 一 译 者 注 
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13.8.2 ”实战 演练 


(1) 遵循 将 复杂 过 程 分 解 为 独立 于 输入 或 输出 细节 的 函数 的 设计 模式 。 





言 息 ， 请 参阅 13.6 节 。 





NS 
瑟 


有 关 这 个 设计 模式 的 详 














(2) 从 工作 模块 导入 基本 函数 ,在 本 例 


1, 这 两 个 模块 具有 相对 乏味 的 名 称 :ch13_r05 和 ch13_r06。 





3_r05 import roll_iter 





fOr GH 
from ch13_r06 import gather_sta 


(3) 导入 


from collections impor 


(4) 创建 一 个 新 函数 ， 


def summarize_games (to 
game_statistics 
return game_statis 


在 许多 情况 下 , 通过 明确 地 
水 线 时 ， 这 一 点 尤为 重要 。 


def summarize_ games_2( 
game_roll_ history 
game_statistics 

















t Counter 





tics 





FOl1 Tt 
gather_st 











组 合 其 他 应 用 程序 的 现 有 函数 。 


tal_games, 
gather_stats(roll_iter(total_games, 


合 放 函数 仓 


total_games, 


LS 


其 他 所 需 模块 。 我 们 将 使 用 counter 对 象 来 准备 本 例 中 的 汇总 。 


函数 的 输出 是 男 一 个 函数 的 输入 。 


*, Seed=None): 


seed=seed)) 














| 建 中 间 结 果 更 有 意义 。 当 多 个 函数 创建 一 种 map-reduce 流 





*, seed=None): 


er(ltotal_games, counts, 
ats (game_roll_history) 


seed=seed) 





























return game_statistics 
我 们 通过 中 间 变 量 将 处 理 过 程 分 解 成 多 个 步骤 。game_rol1_history 变量 是 roll_iter() 也 
数 的 输出 ,这 个 生成 器 的 输出 是 保存 在 game_statistics 变量 中 的 gather_stats () 函数 的 可 迭代 
输入 。 
(5) 编写 使 用 这 个 复合 过 程 的 输出 格式 化 函数 ,例如 ,下 面 的 示例 是 一 个 执行 summarize_games () 
函数 的 复合 过 程 。 这 个 过 程 同样 也 写 人 输出 报告 
def simple_composite(games=100000) : 


start = time.perf_counter() 
stats = summarize_games (games) 
end = time.perf_counter() 
games = sum(stats.values()) 
print ('games', games) 


print (win_ loss (stats)) 
print ("{:.2f} seconds" 


(6) 使 用 argparse 模块 收集 命令 和 


13.8.3 工作 原理 
这 种 设计 的 核心 特征 是 将 应 
































始 应 用 程序 保持 不 变 。 





这 种 设计 的 目的 是 从 工作 模块 导入 陶 


用 程序 的 各 种 关注 点 分 离 为 独立 的 函数 或 类 。 娠 
程序 时 ， 首 先 将 设计 划分 为 输入 、 处 理 和 输出 关注 点 。 这 样 便于 导入 和 重用 处 理 过 程 ， 


.format (end-start)) 


行 选项 。 许 多 实例 都 包含 该 步骤 的 示例 ， 





比如 13.6 节 。 














FE 设计 这 两 个 组 件 应 用 
也 会 使 两 个 原 





























I 





数 ， 避 免 复制 和 粘贴 代码 。 从 一 个 文件 复制 一 个 函数 并 将 
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粘贴 到 另 一 个 文件 中 ,意味 着 对 一 个 文件 的 任何 更 改 都 不 可 能 对 另 一 个 文件 进行 更 改 。 这 两 个 副本 会 
慢 慢 背离 ， 导 致 代码 腐烂 现象 。 

当 类 或 函数 具有 多 个 功能 时 , 重用 的 潜力 就 会 降低 。 这 种 现象 叫 作 逆 圭 律 重用 (inverse power law 
of reuse )， 类 或 函数 的 可 重用 性 R (co) 与 该 类 或 函数 中 的 功能 数 亚 (@) 的 倒数 有 关 : 

R(O) ~ UF (O) 

单一 功能 有 助 于 重用 ， 多 种 功能 减少 了 组 件 重用 的 机 会 。 

当 我 们 观察 13.6 节 和 13.7 节 的 两 个 原始 应 用 程序 时 , 会 发 现 基 本 函数 的 功能 很 少 。roll_iter() 
函数 模拟 一 盘 游 戏 ， 并 产生 结果 。gather_stats () 函数 从 数据 源 收集 统计 信息 。 

计数 功能 当然 依赖 于 抽象 层次 。 从 小 规模 的 角度 来 看 ， 这 些 函 数 执行 了 很 多 小 过 程 。 从 大 规模 的 
角度 来 看 ， 这 些 陶 数 需 要 几 个 辅助 函数 来 形成 一 个 完整 的 应 用 程序 。 从 这 个 观点 来 看 ,一 个 独立 的 函 
数 只 是 一 个 功能 的 一 部 分 。 

我 们 的 重点 是 软件 的 技术 功能 , 这 与 敏捷 概念 没有 任何 关系 , 只 是 多 个 用 户 故 事 背 后 的 统一 概念 。 
在 这 个 背景 下 ， 我 们 讨论 的 是 软件 架构 的 技术 功能 ， 如 输 和 入、 输出、 处理、 操作 系统 资源 使 用 、 依 赖 
关系 等 。 

实际 上 ， 相 关 的 技术 功能 与 用 户 故 事 有 关 。 这 将 规模 问题 纳入 了 用 户 感知 的 软件 属性 领域 。 如 果 
用 户 看 到 多 个 功能 ， 则 意味 着 重用 可 能 不 易 。 

在 本 实例 中 ， 第 一 个 应 用 程序 创建 文件 ， 第 三 个 应 用 程序 汇总 文件 。 用 户 的 反馈 表明 ， 区 别 并 不 
重要 或 者 可 能 是 令 人 困惑 的 。 这 将 导致 重新 设计 ， 来 从 两 个 原始 步骤 创建 一 个 单 步 操 作 。 























































































































义 | 








13.8.4 补充 知识 


我 们 将 介绍 另外 3 种 可 以 作为 复合 应 用 程序 一 部 分 的 架构 功能 。 
口 重 构 : 本 实例 没有 合理 地 区 分 处 理 和 输出 。 在 尝试 创建 复合 应 用 程序 时 ， 可 能 需要 重 构 组 件 
模块 。 
口 并 发 : 并 行 运行 多 个 rol11_iter () 实例 来 使 用 多 个 CPU 内 核 。 
口 日 志 记 录 : 当 组 合 多 个 应 用 程序 时 ， 组 合 的 日 志 记 录 可 能 会 很 复杂 。 
1. 重 构 
在 某 些 情况 下 ， 有 必要 重 构 软 件 来 提取 有 用 的 功能 。 其 中 一 个 组 件 ( ch13_r06 模块 ) 包含 以 下 
函数 : 
def process_all_ files(result_ file, file names): 
for source path in (Path(n) for n in file names): 
detail_log.info("read {}".format (source_patnh)) 
with source path.open() as source file: 
game_iter = yaml.load all(source_ file) 
statistics = gather_stats (game_iter) 


result_file.writel 
yaml .dump (dict (statistics), explicit_ start=True) 























) 
这 个 函数 将 源 文件 迭代 、 详 细 处 理 和 输出 创建 组 合 在 一 起 。result_file.write() 输 出 处 理 是 
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复杂 的 语句 ， 很 鸡 
2 用 程序 之 间 正 确 地 重用 该 函数 , 需要 重 构 ch13_r06 应 用 程序 , 使 文件 输出 不 再 隐 


藏 在 仁 Process_al1l1 files()B 





E 从 这 个 函数 中 提取 。 



































那么 重 构 将 非常 困难 。 


result_fil 

















函数 中 。 在 本 例 中 , 重 构 并 不 难 。 在 某 些 情况 下 ,如 果 选 择 错误 的 抽象 ， 
e.write(...) 需 要 用 一 个 单独 的 函数 代替 。 详 细 信息 将 作为 练习 。 定 义 为 单独 的 









































这 种 重 构 使 新 函数 可 用 于 其 他 复合 应 用 程序 。 当 多 个 应 用 程序 共享 一 个 函数 时 ， 应 用 程序 之 间 的 
输出 很 可 能 是 兼容 的 。 
2. 并 发 





先 运行 多 次 模拟 , 然后 再 单独 执行 统计 汇总 。 
详细 的 模拟 可 以 并 行 运行 ， 使 用 多 个 内 核 和 处 理 器 。 然 而 ， 





因 在 于 , 这 是 一 种 map-reduce 设计 。 
寸 统 计 归 约 〈 statistical 





这 样 做 的 根本 原 
最 终 的 汇总 需要 通过 








reduction ) 来 完成 所 有 的 模拟 。 














我 们 通常 使 








Concurren 


用 操 人 
的 & 运 算 符 。Windows 有 一 个 类 似 的 start 命令 。 我 们 可 以 直接 利用 Python 生成 多 个 并 发 的 模拟 进程 。 
t 包 中 
Executor 实例 来 构建 并 行 的 模拟 处 理 器 (processor )。 我 们 可 以 向 这 个 执行 器 (executor ) 提交 请 求 ， 


E 系 统 的 功能 运行 多 个 并 发 进程 。POSIX shell 包含 可 用 于 分 支 (fork ) 并 发 子 进 程 



































以 通过 创建 一 个 ProcessPool- 





的 futures 模块 能 够 实现 这 种 功能 。 可 








然后 从 并 发 请 求 中 收集 结果 。 


块 


import concurrent 





.futures 


def parallel (): 
start = time.perf_counter() 


total_stats 
worker_list = 
with concurrent.futures.ProcessPoolExecutor () 


Counter() 


[] 


as executor: 


for i in range(100): 


worker_list.append (executor.submit (summarize_games, 


1000)) 


for worker in worker_list: 


stats = worker.result() 
total_stats.update(stats) 


end = time.perf_counter() 


games = 
Drit:t 


'games', 


sum(total_stats.values ()) 


games) 


print (win_ loss(total_stats)) 


DTT (M3 
我 们 初始 化 了 3 个 对 象 : 
间 ,time.perf_counter() 通 常 是 最 准确 的 定时 
对 象 。worker_1list 是 一 
ProcessPoolExecutor 方法 定义 了 一 个 处 理 上 下 文 ， 其 中 工作 进程 池 可 用 于 处 理 请 求 。 默 认 情 


况 下 ,进程 池 具 有 与 处 理 带 数目 相同 的 工作 进程 。 











定义 的 所 有 表 





.2f} seconds".format (end-start)) 


start、total_stats 和 worker_list。start 对 象 是 处 理 开 始 的 时 
器。total_stats 是 收集 最 终 统 计 汇 总 的 Counter 
象 ， 其 中 每 个 对 象 都 是 一 个 请 求 。 


， 2™~ 






































系列 独立 的 Future 对 














每 个 工作 进程 运行 一 个 导入 给 定 模块 的 执行 顺 ,， 模 














数 和 类 都 适用 于 工作 进程 。 
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执行 器 的 submit () 方 法 被 赋予 一 个 函数 。 本 实例 将 会 有 100 个 请 求 , 每 个 请 求 将 模拟 1000 盘 游 
戏 ， 并 返回 这 些 游戏 的 仍 子 点 数 序列 。submit () 返 回 一 个 Future 对 象 ， 该 对 象 是 一 个 工作 请 求 的 
模型 。 














在 提交 所 有 100 个 请 求 后 ， 收 集结 果 。Future 对 象 的 result () 方 法 等 待 处 理 完成 并 收集 生成 
的 对 象 。 在 本 实例 中 ， 生 成 的 结果 是 1000 盘 游 戏 的 统计 汇总 。 然 后 合并 这 些 结果 来 创建 整体 的 
total_stats 摘要 。 

串 行 执行 和 并 行 执行 的 区 别 如 下 所 示 : 


games 100000 
Counter({'loss': 50997, 'win': 49003}) 
2.83 seconds 
games 100000 
Counter({'loss': 50523, 'win': 49477}) 
1.49 seconds 


处 理 时 间 减 少 了 一 半 。 既 然 有 100 个 并 发 请 求 ， 为 什么 时 间 没 有 缩短 到 原始 时 间 的 百 分 之 一 呢 ? 
这 是 因为 在 产生 子 进程 、 请 求 数据 通信 和 结果 数据 通信 等 方面 ， 存 在 着 相当 大 的 开销 。 

3. 日 志 记 录 

在 13.7 节 中 ， 我 们 研究 了 如 何 使 用 logging 模块 来 处 理 监 控 输 出 、 审 计 输 出 和 错误 输出 。 当 构 
建 一 个 复合 应 用 程序 时 ， 必 须 组 合 每 个 原始 应 用 程序 的 日 志 功 能 。 

日 志 记 录 涉 及 一 个 三 段 式 的 实例 。 

(1) 创建 日 志 记 录 器 对 象 。 这 个 步骤 通常 是 一 行 类 似 logger = logging.get_logger('some_ 
name' ) 的 代码 。 一 般 只 在 类 或 模块 级 别 添 加 一 次 。 

(2) 使 用 日 志 记 录 器 对 象 收 集 事 件 。 这 涉及 类 似 1ogger .info('some message ' ) 的 代码 行 。 这 
些 行 分 散在 整个 应 用 程序 中 。 

(3) 配置 整个 日 志 记 录 系 统 。 在 应 用 程序 中 ， 日 志 记 录 配 置 方式 有 两 种 。 

口 尽 可 能 在 外 部 。 在 本 例 中 ， 日 志 记录 配置 只 在 应 用 程序 最 外 层 的 全 局 范围 内 完成 。 





































































































i mame ss an 
logging configuration goes only here. 
main() 


logging.shutdown() 


这 样 可 以 确保 只 有 一 个 日 志 记录 系统 配置 。 
口 在 类 、 函 数 或 模块 中 的 某 个 位 置 。 在 本 例 中 ， 多 个 模块 都 尝试 配置 日 志 记 录 。 日 志 记录 系统 
允许 这 样 配置 ， 但 是 调试 时 可 能 会 非常 混乱 。 
这 些 实例 都 遵循 了 第 一 种 方式 。 如 果 所 有 应 用 程序 都 配置 了 全 局 范围 内 的 日 志 记录 ,那么 就 很 
易 理 解 如 何 配置 复合 应 用 程序 。 
0 志 记 录 配 置 的 情况 下 ， 复 合 应 用 程序 可 以 遵循 两 种 方式 。 
合 应 用 程序 包含 一 个 最 终 配置 ， 它 有 意 地 重 写 所 有 以 前 定义 的 日 志 记 录 右 。 这 是 默认 值 ， 








































































































口 复合 应 用 程序 保留 其 他 应 用 程序 的 日 志 记录 带 ， 只 修改 日 志 记录 带 配 置 ( 也许 是 通过 设置 
































0 过 在 YAML 配置 文档 中 包含 incremental: false 来 明确 说 明 。 
* EN 
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体 级 别 )。 这 可 以 通过 在 YAML 配置 文档 中 包含 incremental: true 来 完成 。 
在 组 合 不 隔离 日 志 记 录 配 置 的 Python 应 用 程序 时 ，incremental 配置 非常 有 用 。 为 了 正确 配置 
复合 应 用 程序 的 日 志 记 录 ， 可 能 需要 一 些 时 间 来 阅读 和 理解 每 个 应 用 程序 的 代码 。 







































































13.8.5 ”延伸 阅读 


口 13.6 节 研 究 了 可 组 合 的 应 用 程序 的 核心 设计 模式 。 
13.9 ”使 用 命令 设计 模式 组 合 多 个 应 用 程序 


许多 复杂 的 应 用 程序 都 遵循 类 似 于 Git 程序 使 用 的 设计 模式 。Git 程序 有 一 个 基本 命令 git 以 及 
多 个 子 命令 , 例如 git pull、 git commit 和 git push。 
这 种 设计 的 核心 在 于 创建 一 个 命令 集合 git 的 每 个 功能 都 可 以 视 为 一 个 执行 给 定 函数 的 类 定义 。 
当 我 们 输入 一 个 命令 时 ,例如 git pul1， 就 好 像 git 正在 查找 一 个 类 来 实现 这 个 命令 。 
如 何 创 建 密切 相关 的 命令 族 (command family ) ? 


13.9.1 ”准备 工作 


假设 一 个 应 用 程序 由 3 个 命令 构建 。 该 应 用 程序 基于 13.6 节 、13.7 节 以 及 13.8 节 中 的 应 用 程序 。 
我 们 将 有 3 个 应 用 程序 : simulate 、summarize 以 及 一 个 名 为 simsum 的 复合 应 用 程序 。 
这 些 功能 基于 ch13_r05、ch13_r06 和 ch13_r07 模块 。 可 以 遵循 命令 设计 模式 将 这 些 单独 的 
模块 重 构 为 一 个 类 层次 结构 。 
这 个 设计 有 两 个 关键 因素 。 
口 客户 端 只 依赖 于 抽象 超 类 commang。 
口 commang 超 类 的 每 个 子 类 都 具有 相同 的 接口 。 可 以 用 任意 一 个 子 类 替代 其 他 子 类 。 
完成 该 设计 后 ， 主 应 用 程序 脚本 可 以 创建 并 执行 任意 一 个 Ccommand 子 类 。 


























































































































13.9.2 “实战 演练 

(1) 主 应 用 程序 具有 一 个 将 功能 分 为 两 类 (参数 解析 和 命令 执行 ) 的 结构 。 每 个 子 命 令 将 包含 捆 
绑 在 一 起 的 处 理 和 输出 。 

Command 超 类 如 下 所 示 : 


from argparse import Namespace 




















class Command: 
def execute(self, options: Namespace): 
pass 


我 们 将 依靠 argparse .Namespace 为 每 个 子 类 提供 灵活 的 选项 集合 。 这 个 步 又 不 是 必需 的 ， 
但 是 有 助 于 实现 13.10 节 中 的 实例 。 由 于 该 实例 将 包含 选项 解析 ， 因 此 最 好 将 每 个 类 的 重点 放 在 使 
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用 argparse.Namespace 上 。 
(2) 为 Simulate 命令 创建 commana 超 类 的 一 个 子 类 。 


import ch13_r05 





class Simulate (Command): 
def _ init_ _(self, seed=None): 
self.seed = seed 
def execute(self, options): 
self.game path = Path(options.game_ file) 
data = chl3_r05.roll_iter(options.games, self.seed) 
ch13_r05.write_rolls(self.game path, data) 


将 ch13_r05 模块 的 处 理 和 输出 包装 到 该 类 的 execute() 方 法 中 。 
(3) 为 Summarize 命令 创建 command 超 类 的 一 个 子 类 。 


import ch13_r06 





class Summarize (Command): 
def execute(self, options): 
self.summary_path = Path(options.summary_file) 
with self.summary_path.open('w') as result_file: 
ch13_r06.process_all files(result_file, options.game_ files) 


将 文件 创建 和 文件 处 理 包装 到 该 类 的 execute () 方 法 中 。 
(4) 整个 处 理 过 程 都 可 以 通过 main () 函数 执行 。 


from argparse import Namespace 








def main(): 
options_1 = Namespace (games=100, game_file='x.yaml') 
commandl1 = Simulate() 


commandl1 .execute (options_1) 


options_2 = Namespace(summary_file='y.yaml', game_ files=['x.yaml']) 
command2 = Summarizel() 
command2 .execute (options_ 2) 


我 们 创建 了 两 个 命令 、 一 个 simulate 类 的 实例 和 一 个 summarize 类 的 实例 。 这 些 命令 可 以 被 
执行 ， 以 提供 模拟 和 汇总 数据 的 组 合 功能 。 


13.9.3 ”工作 原理 


为 各 种 子 命令 创建 可 互 换 的 多 态 类 是 提供 可 扩展 设计 的 便捷 方式 ,命令 设计 模式 ( command design 
pattern ) 强烈 鼓励 每 个 子 类 具有 相同 的 签名 ， 这 样 就 可 以 创建 和 执行 任意 命令 了 。 此 外 ， 还 可 以 添加 
适合 框架 的 新 命令 。 

里 氏 替 换 原 则 (liskov substitution principle，LSP ) 是 S.0.L.LD 设计 原则 之 一 。commang 抽象 类 
的 任何 子 类 都 可 以 用 来 代替 父 类 。 

每 个 commang 实例 都 有 一 个 简单 的 接口 ， 并 且 包 含 两 个 方法 。 
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口 init _() 方 法 接受 一 个 由 参数 解析 器 创建 的 命名 空间 对 象 。 每 个 类 将 仅 从 这 个 命名 空间 
选择 所 需 的 值 ， 忽 略 其 他 任何 值 。 这 允许 全 局 参数 被 不 需要 它 的 子 命令 忽略 。 
口 execute() 方 法 执行 处 理 和 写 入 输出。 该 方法 完全 基于 初始 化 期 间 提供 的 值 。 

使 用 命令 设计 模式 很 容易 确保 它们 可 以 互 换 。main () 脚本 可 以 创建 simulate 类 或 者 summarize 
类 的 实例 。 替 换 原 则 意味 着 可 以 执行 任何 一 个 实例 ， 因 为 接口 是 相同 的 。 这 种 灵活 性 使 得 很 容易 解析 
命令 行 选项 并 创建 一 个 可 用 类 的 实例 。 我 们 可 以 扩展 这 种 思想 ， 创 建 命令 实例 的 序列 。 






















































































13.9.4 ”补充 知识 


命令 设计 模式 的 一 种 常见 扩展 是 提供 复合 命令 。13.8 节 介 绍 了 一 种 创建 复合 应 用 程序 的 方法 ， 另 
种 方法 是 定义 一 个 实现 现 有 命令 组 合 的 新 命令 。 
class CommandSequence (Commanad) : 
def _ init__(self, *commands): 
self.commands = [command() for command in commands] 
def execute(self, options): 
for command in self.commands: 
command .execute (options) 


这 个 类 通过 *commands 参数 接受 其 他 command 类 ，commands 序列 将 组 合 所 有 位 置 参 数值 。 最 
后 ， 通 过 这 些 类 构建 一 个 单独 的 类 实例 。 
CommandSequence 类 的 使 用 过 程 如 下 所 示 : 


options = Namespace (games=100, game_ file='x.yaml', 
summary_file='y.yaml', game_files=['x.yaml'] 

































































) 
sim sum command = CommandSequence(Simulate, Summarize) 
sim_sum command.execute (options) 


我 们 使 用 另外 两 个 类 simulate 和 summarize 创建 了 CommandSequence 的 实例 。_init__() 
方法 将 构建 这 两 个 对 象 的 内 部 序列 。 然 后，sim_sum_command 对 象 的 execute () 方 法 依次 执行 这 两 
个 处 理 步 又 。 

这 种 设计 虽然 简单 , 但 暴露 了 许多 实现 细节 , 特别 是 两 个 类 名 和 中 间 文 件 x.yaml 的 细节 。 可 以 将 
这 些 细节 封装 成 一 个 更 好 的 类 设计 。 

如 果 特 别 关 注 两 个 被 组 合 的 命令 ， 那 么 可 以 创建 一 个 稍微 好 点 的 commandSequence 参数 子 类 ， 

init _() 方 法 将 遵循 其 他 command 子 类 的 模式 。 


class SimSum(CommandSequence): 
def _ init_ _ (self) : 
super()._ init_ _(Simulate, Summarize) 


这 个 类 定义 将 另外 两 个 类 包含 到 已 定义 的 commandSequence 结构 中 。 可 以 继续 沿 着 这 个 思 
通过 稍微 修改 选项 来 消除 simulate 步骤 中 game_file 输出 的 显 式 值 , 这 个 输出 必须 是 Summarize 
步骤 中 game_files 输入 的 一 部 分 。 

我 们 希望 构建 和 使 用 更 简单 的 Namespace， 其 中 包含 以 下 选项 : 
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options = Namespace(games=100，Ssummary_file='y.yam1l') 
sim_sum command = SimSum() 
sim_sum_ command.execute (options) 


这 意味 着 一 些 缺失 的 选项 必须 通过 execute() 方 法 注入 。 因 此 ,将 execute() 方 法 添加 到 
simSum 类 中 : 
def execute(self, options): 
new_namespace = Namespace 
game_file='x.yaml', 


game_files=['x.yaml'], 
**vars (options) 








) 


super() .execute (new_namespace) 


execute() 方 法 克隆 了 options, 并 增加 了 两 个 附加 值 ， 这 些 值 是 命令 
户 应 该 提供 的 值 。 

这 种 设计 避免 了 更 新 有 状态 的 选项 集 。 为 了 使 原始 选项 对 象 保持 原样 ， 我 们 创建 了 一 个 副本 。 
vars () 函数 将 Namespace 暴露 为 一 个 简单 的 字典 。 然 后 , 可 以 使 用 ** 关 键 字 参数 技术 将 字典 转换 为 
一 个 新 Namespace 对 象 的 关键 字 参 数 ， 这 将 创建 一 个 浅 副本 。 如 果 命 名 空间 中 的 任何 有 状态 对 象 被 
更 新 ， 那 么 原始 的 options 参数 和 new_namespace 参数 都 可 以 访问 相同 的 底层 值 对 象 。 
既然 new_namespace 是 一 个 不 同 的 集合 ， 那 么 就 可 以 在 这 个 Namespace 实例 中 添加 新 的 键 和 
值 。 这 些 键 和 值 只 会 出 现在 new_namespace 中 ,原始 的 options 对 象 保持 不 变 。 
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成 的 一 部 分 , 但 不 是 用 





































































































13.9.5 ”延伸 阅读 


口 13.6 节 、13.7 节 和 13.8 节 介 绍 了 这 个 复合 应 用 程序 的 各 个 组 成 部 分 。 在 大 多 数 情 况 下 ， 我 们 
需要 组 合 这 些 实例 的 元 素来 创建 有 用 的 应 用 程序 。 
口 通常 需要 遵循 13.10 节 中 的 实例 。 


13.10 ”管理 复合 应 用 程序 中 的 参数 和 配置 


在 由 单独 的 应 用 程序 组 成 的 复杂 套件 或 系统 中 ， 多 个 应 用 程序 共享 通用 功能 的 情况 非常 常见 。 当 
然 , 我 们 可 以 使 用 继承 来 定义 一 个 库 模 块 ， 通 过 这 个 库 模 块 为 复杂 套件 中 的 每 个 应 用 程序 提供 通用 的 
类 和 函数 。 

创建 多 个 应 用 程序 的 缺点 在 于 外 部 CLI 直接 关联 软件 架构 。 重 排 软件 组 件 变 得 非常 麻烦 ， 因 为 更 
改 也 会 改变 CLI。 

在 许多 应 用 程序 文件 中 协调 通用 功能 可 能 会 变 得 很 棘手 。 例 如 ， 为 命令 行 参数 定义 各 种 单字 母 的 
缩写 选项 就 很 不 容易 ， 需 要 在 所 有 单独 的 应 用 程序 文件 之 外 保留 一 些 选项 的 主 列表 。 这 个 列表 似乎 应 
该 放 在 代码 中 的 某 个 地 方 。 

除了 继承 之 外 ,还 有 其 他 替代 方案 吗 ? 如 何 确 保 在 重 构 一 套 应 用 程序 时 不 会 对 CLI 意 外 进行 更 改 ， 
或 者 需要 额外 进行 复杂 的 设计 说 明 ? 
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13.10.1 准备 工作 


许多 复杂 的 应 用 程序 套件 都 遵循 类 似 于 Git 程序 使 用 的 设计 模式 。Git 程序 有 一 个 基本 命令 git 
以 及 多 个 子 命令 , 例如 git pull、git commit 和 git push。 命令 行 界面 的 核心 可 以 通过 git 命 
令 集 中 ， 然 后 可 以 根据 需要 组 织 和 重组 子 命令 ,减少 对 可 见 CLI 的 更 改 。 
假设 有 一 个 由 3 个 命令 构建 的 应 用 程序 。 本 实例 基于 13.6 节 、13.7 节 和 13.8 节 中 的 应 用 程序 。 我 
们 将 有 3 个 应 用 程序 以 及 3 个 命令 : craps simulate、craps summarize 以 及 craps simsum。 
本 实例 依赖 于 13.9 节 中 的 子 命 令 设计 。 这 种 设计 将 提供 一 个 方便 的 command 子 类 层次 结构 。 
口 command 类 是 抽象 超 类 。 
口 Simulate 子 类 执行 来 自 13.6 节 的 模拟 函数 。 
口 Summarize 子 类 执行 来 自 13.7 节 的 汇总 函数 。 
口 Simsum 子 类 可 以 执行 组 合 的 模拟 和 汇总 ， 遵 循 13.8 节 的 设计 。 
此 外 ， 创 建 一 个 简单 的 命令 行 应 用 程序 还 需要 适当 的 参数 解析 功能 。 
本 实例 的 参数 解析 功能 依赖 于 argparse 模块 的 子 命令 解析 功能 。 我 们 可 以 创建 适用 于 所 有 子 命 
令 的 通用 命令 选项 集 ， 还 可 以 为 每 个 子 命令 创建 独特 的 选项 。 
























































































































































13.10.2 ”实战 演练 


(1) 定义 命令 界面 。 这 是 一 个 用 户 体验 设计 练习 。 虽 然 大 多 数 用 户 体验 设计 专注 于 Web 和 移动 端 
应 用 程序 ,但 是 核心 原则 同样 适用 于 CLI 应 用 程序 和 服务 器 。 
之 前 ， 我 们 注意 到 根 应 用 程序 是 craps， 它 具有 以 下 3 个 子 命 令 。 


craps simulate -o game _ file -g games 
craps summarize -o Summary file game file ... 
craps simsum -g games 


(2) 定义 根 Python 应 用 程序 。 与 本 书 中 的 其 他 文件 一 致 ， 我 们 称 之 为 ch13_r08.py。 可 以 在 操作 系 
统 级 提供 一 个 别名 或 链接 ， 使 这 个 用 户 界面 更 符合 craps 用 户 的 期 望 。 

(3) 从 13.9 节 中 导入 类 定义 。 这 包括 command 超 类 、simulate 子 类 、summarize 子 类 和 Simsum 
子 类 。 

(4) 首先 创建 主 参数 解析 器 ， 然 后 创建 一 个 子 解析 器 构建 右 。subparsers 对 象 用 于 创建 每 个 子 
命令 的 参数 定义 。 

import argparse 

def get_options (argv): 


parser = argparse.ArgumentParser (prog='craps') 
subparsers = parser.add_ subparsers() 


为 每 个 命令 创建 一 个 解析 器 并 添加 该 命令 特有 的 参数 。 
(5) 定义 simulate 命令 以 及 模拟 过 程 特有 的 两 个 选项 。 我 们 还 将 提供 一 个 特殊 的 默认 值 ， 它 将 
初始 化 得 到 的 Namespace 对 象 。 


simulate parser = subparsers.add parser('simulate') 
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simulate_parser.addq_argument ('-g', '--games', type=int, default=100000) 
simulate parser.add argument ('-o', '--output', dest='game_ file') 
simulate parser.set_defaults (command=Simulate) 


(6) 定义 summarize 命令 以 及 该 命令 特有 的 参数 。 提 供 填 充 Namespace 对 象 的 默认 值 。 


summarize parser = subparsers.add parser('summarize') 

summarize parser.add argument ('-o', '--output', dest='summary_file') 
summarize _ parser.add argument ('game_ files', nargs='*') 

summarize parser.set_defaults (command=Summarize) 


(7) 定义 simsum 命令 ， 并 提供 唯一 的 默认 值 ， 以 便于 处 理 Namespace 对 象 。 














simsum parser = subparsers.add parser('simsum') 
simsum parser.add argument ('-g', '--games', type=int, default=100000) 
simsum parser.add argument ('-o', '--output', dest='summary_file') 


simsum parser.set_ defaults (command=SimSum) 


(8) 解析 命令 行 中 输入 的 值 。 在 本 例 中 ，get_options () 函数 接受 的 参数 将 是 sys .argv[1:] 的 
值 ， 它 包含 Python 命令 的 参数 。 为 了 测试 ， 可 以 覆盖 参数 值 。 


options = parser.parse_args (argV) 

if 'command' not in options: 
parser.print_help() 
sys.exit (2) 

return options 


主 解析 器 包含 3 个 子 命令 解析 器 ， 它 们 将 分 别处 理 craps simulate、craps summarize 和 
craps simsum 命令 ， 每 个 子 命令 的 选项 组 合 略 有 不 同 。 

commangd 选项 仅 通过 set_dqefaults () 方 法 设置 。 这 将 发 送 有 关 即 将 执行 命令 的 有 用 的 附加 信 
息 。 本 例 提 供 了 必须 实例 化 的 类 。 

(9) 主 应 用 程序 由 main () 函数 定义 ， 如 下 所 示 。 


def main(): 
options = get_options (sys.argv[1:]) 
command = options.command (options) 
command .execute() 


首先 解析 选项 ,每 个 不 同 的 子 命令 为 options .commangd 的 参数 设置 唯一 的 类 值 。 这 个 类 用 于 构 
建 一 个 commang 子 类 的 实例 。 这 个 对 象 具有 execute () 方 法 。 

(10) 实现 根 命令 的 操作 系统 包装 器 。 我 们 有 一 个 名 为 craps 的 文件 ， 该 文件 具有 rx 权限 ， 以 便 其 
他 用 户 访问 。 该 文件 的 内 容 如 下 所 示 。 

python3.5 ch1l3_ r08.py S$* 

这 个 shell 脚本 提供 了 一 种 简便 的 方法 来 输入 craps 命令 ,并 且 正 确 地 执行 具有 不 同名 称 的 Python 
脚本 。 

可 以 创建 一 个 bash shell 别名 ， 如 下 所 示 : 


alias craps='python3.5 ch13_r08 .py' 
这 个 命令 可 以 放 在 .bashrc 文件 中 ， 以 定义 craps 命令 。 
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13.10.3 ”工作 原理 


本 实例 分 为 两 个 部 分 。 
口 使 用 命令 设计 模式 定义 一 组 相关 的 多 态 类 。 更 多 相关 信息 ， 请 参阅 13.9 节 。 
口 使 用 argparse 模块 的 功能 处 理子 命令 。 
解析 器 的 add_subparsers () 方 法 是 argparse 模块 的 重要 功能 。 这 个 方法 返回 一 个 用 于 构建 
每 个 子 命令 解析 器 的 对 象 。 我 们 将 这 个 对 象 赋 值 给 变量 subparsers。 
我 们 还 在 顶层 解析 器 中 定义 了 一 个 简单 的 commanad 参数 。 这 个 参数 只 能 是 每 个 子 解析 器 定义 的 
默认 值 ， 默 认 值 显 示 了 实际 调用 的 子 命令 。 
每 个 子 解析 器 都 使 用 子 解析 器 对 象 的 add9_parser () 方 法 构建 返回 的 parser 对 象 可 以 定义 参 




























































































数 和 默认 值 。 
当 执行 主 解析 器 时 ， 它 将 解析 在 子 命令 之 外 定义 的 任何 参数 。 如 果 存 在 子 命令 ， 则 确定 如 何 解 析 
剩余 的 参数 。 





注意 下 面 的 命令 : 

craps simulate -g 100 -o x.yaml 

这 个 命令 在 被 解析 后 ， 将 创建 一 个 Namespace 对 象 ， 如 下 所 示 : 

Namespace (Command=<class ' main .Simulate'>, game file='x.yaml', games=100) 

Namespace 对 象 的 commang 属性 是 作为 子 命令 定义 的 一 部 分 提供 的 默认 值 ，game_file 和 
games 的 值 分 别 来 自 -o 选项 和 -g 选项 。 

命令 设计 模式 

为 各 种 子 命令 创建 可 互 换 的 多 态 类 ， 这 种 设计 易于 重 构 或 扩展 。 命 令 设 计 模式 强烈 鼓励 每 个 子 类 
都 具有 相同 的 签名 ， 这 样 就 可 以 创建 和 执行 任意 命令 类 。 

里 氏 替 换 原则 是 S.0.L.LD 设计 原则 之 一 。commang 抽象 类 的 任何 子 类 都 可 以 用 来 代替 父 类 。 
每 个 commana 实例 都 有 一 个 简单 的 接口 ， 并 且 包 含 两 个 方法 。 
口 _init__() 方 法 接受 一 个 由 参数 解析 器 创建 的 命名 空间 对 象 。 每 个 类 将 仅 从 这 个 命名 空间 
选择 所 需 的 值 ， 忽 略 其 他 任何 值 。 这 允许 全 局 参数 被 不 需要 它 的 子 命令 忽略 。 
口 execute() 方 法 执行 处 理 和 写 和 人 输出。 该 方法 完全 基于 初始 化 期 间 提供 的 值 。 
使 用 命令 设计 模式 可 以 很 容易 确保 它们 可 以 互 换 。 替 换 原 则 意味 着 main () 函数 只 需 创 建 一 个 实 
例 ， 然 后 执行 该 对 象 的 sxecute () 方 法 。 
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13.10.4 ”补充 知识 
可 以 考虑 将 子 命令 解析 器 的 细节 放 入 每 个 类 定义 中 。 例 如 ，simulate 类 定义 了 两 个 参数 : 


simulate parser.add argument ('-g', '--games', type=int, default=100000) 
simulate parser.add argument ('-o', '--output', dest='game_ file') 


让 get_options () 函数 定义 该 实现 类 的 细节 似乎 不 太 合 适 ， 也 许 适 当 封装 的 设计 会 将 这 些 细节 
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分 配给 每 个 commang 子 类 。 
还 需要 添加 用 于 配置 给 定 解析 器 的 静态 方法 。 新 的 类 定义 如 下 所 示 : 
import ch13_r05 
class Simulate (Command): 
def _ init _(self, options, *, seed=None): 
self.games = options.games 
self.game_file = options.game_ file 
self.seed = seed 
def execute (self): 
data = chl3_r05.roll_iter(self.games, self.seed) 
ch13_r05.write_rolls(self.game_ file, data) 
@staticmethod 
def configure(simulate parser): 
simulate parser.add argument ('-g', '--games', type=int, default=100000) 
simulate parser.add argument ('-o '--output', dest='game_file') 








我 们 添加 了 配置 解析 器 的 configure () 方 法 。 




















这 个 改动 使 我 们 更 容易 了 解 如 何 通过 解析 命令 行 











值 来 创建 ”init__() 参 数 ， 也 让 我 们 可 以 重 写 get_options () 函数 : 
import argparse 
def get_options (argv): 
parser = argparse.ArgumentParser (prog='craps' 
subparsers = parser.add subparsers() 
simulate parser = subparsers.add parser('simulate') 


Simulate.configure(simulate parser) 


simulate parser.set_defaults (command=Simulate) 


# 对 每 个 类 重复 类 似 步 又 
这 个 函数 利用 静态 方法 configur 
) 处 理 ， 因 为 不 涉及 内 部 细节 。 
13.10.5 延伸 阅读 


口 关于 本 实例 组 件 的 背景 信息 ， 
口 关于 参数 解析 的 更 多 背景 信息 ， 

















() 提供 参 





OPLions ( 





请 参阅 13.6 节 、 
请 参阅 5.5 节 。 
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13.11 





数 的 详细 信息 。 命 








令 参 数 的 默认 值 可 以 由 get_ 


13.7 节 和 13.8 市 。 


一 种 常见 的 自动 化 操作 涉及 运行 多 个 程序 ,其 中 没有 一 个 程序 是 用 Python 编写 的 。 鉴 于 此 , 无 法 








通过 重 写 每 个 程序 来 创建 一 个 Python 复合 应 用 程序 。 我 们 不 能 








按照 13.8 节 来 解决 问题 。 





这 个 问题 的 解决 方案 是 ， 将 其 他 程序 包装 在 Python 中 ， 以 提供 更 高 级 的 结构 ， 而 不 是 聚合 功能 。 
这 种 情况 非常 类 似 于 编写 shell 脚本 ， 不 同 之 处 在 于 使 用 的 是 Python ， 而 不 是 shell 脚本 。 使 用 Python 























的 优点 在 于 : 
口 Python 有 丰富 的 数据 结构 ，shell 


只 有 字符 串 和 字符 串 数组 ; 
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口 Python 有 出 色 的 单元 测试 
冲突 。 
如 何在 Python 中 运行 以 其 他 语言 编写 的 应 用 程序 ? 


13.11.1 ”准备 工作 


13.6 节 设计 了 一 个 应 用 程序 ， 它 执行 了 一 些 处 理 并 产生 了 非常 复杂 的 结果 。 为 了 演示 本 实例 ， 假 
设 这 个 应 用 程序 不 是 用 Python 编写 的 。 
该 应 用 程序 需要 运行 几 百 次 ， 但 是 我 们 不 想 把 必要 的 命令 复制 粘贴 到 脚本 中 。 另 外 ， 因 为 shell 
很 难 测试 ， 数 据 结构 也 很 少 ， 所 以 尽量 避免 使 用 shell。 
本 实例 假设 ch13 r05 是 一 个 本 地 二 进 制 应 用 程序 ， 可 能 是 用 C++ 或 Fortran 编写 的 。 这 意味 着 不 
能 简单 地 导入 包含 该 应 用 程序 的 Python 模块 , 而 是 必须 通过 运行 一 个 单独 的 操作 系统 进程 来 处 理 该 应 
用 程序 。 
我 们 将 使 用 supprocess 模块 在 操作 系统 级 运行 一 个 应 用 程序 。 在 Python 中 运行 另 一 个 二 进 制 
程序 有 两 种 常见 的 情况 。 
口 没有 任何 输出 ， 或 者 不 在 Python 程序 中 收集 输出 。 第 一 种 情况 是 典型 的 操作 系统 实用 程序 ， 
当 它 们 运行 成 功 或 失败 时 返回 状态 码 。 第 二 种 情况 也 很 典型 ， 许 多 子 程序 都 写 人 标准 错误 日 
志 ， 而 父 Python 程序 只 是 启动 子 进程 。 
口 需要 收集 和 分 析 输 出 ， 用 于 取 回 信息 或 确定 完成 的 程度 。 
本 实例 将 介绍 不 需要 捕获 输出 的 第 一 种 情况 。13.12 节 将 介绍 输出 由 Python 包装 程序 仔细 审查 的 
第 二 种 情况 。 


[il 








架 , 因此 可 以 确保 shell 脚本 的 Python 版 本 不 会 与 广泛 使 用 的 服务 





























































































































































































































13.11.2 ”实战 演练 


(1) 导入 subprocess 模块 。 

import subprocess 

(2) 设计 命令 行 。 通 常 ， 该 步骤 应 当 在 操作 系统 提示 符 下 进行 测试 ， 以 确保 执行 正确 的 操作 。 

slott$ python3 ch13 r05.py --samples 10 --output x.yaml 

需要 灵活 设置 输出 文件 名 , 这 样 才 可 以 运行 程序 数 百 次 。 本 实例 将 创建 名 称 类 似 于 game_{n}.yaml 
的 输出 文件 。 
(3) 编写 循环 遍历 相应 命令 的 语句 。 每 个 命令 都 可 以 构建 为 单词 序列 。 根 据 空 格 分 割 shell 命令 行 ， 
创建 一 个 单词 序列 。 


files = 100 
for n in range(files): 
filename = 'game_{n}.yaml'.format_ map (vars()) 
command = ['python3', 'ch13_r05.py', 
'--samples', '10', '--output', filename] 
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该 步 又 将 创建 各 种 命令 。 可 以 使 用 print () 函数 显示 每 个 命令 ， i 笃 正确 定义 了 文件 名 。 
(4) 通过 subprocess 模块 执行 run () 函数 ， 这 将 执行 给 定 的 命令 。 设 置 check=True， 这 样 如 
果 出 现任 何 问题 ， 就 会 抛 出 supprocess .CalledProcessError 异常 。 


























subprocess.run(command, check=True) 


(5) 为 了 正确 测试 本 实例 ， 整 个 序列 应 当 转 换 为 一 个 适当 的 函数 。 如 果 将 来 有 更 多 的 相关 命令 
那么 这 个 函数 应 当 是 commana 类 层次 结构 中 子 类 的 一 种 方法 。 请 参阅 13.10 节 。 











13.11.3 ”工作 原理 


Python 程序 可 以 利用 subprocess 模块 运行 计算 机 上 的 其 他 程序 。run () 函数 执行 了 许多 操作 。 
在 POSIX 环境 中 (例如 Linux 或 Mac OS X ),， 步骤 大 致 如 下 。 
口 为 子 进程 准备 stain、stdout 和 stgerr 文件 描述 符 。 本 例 使 用 了 默认 值 ， 这 意味 着 子 进程 
继承 父 进程 正在 使 用 的 文件 。 如 果子 进程 输出 到 staout, 那么 它 将 与 父 进程 显示 在 同一 个 控 
制 台 上 。 
口 调用 os . fork () 函数 将 当前 进程 拆 分 为 一 个 父 进 程 和 一 个 子 进程 。 父 进程 将 被 赋予 子 进程 的 
进程 ID， 它 可 以 等 待 子 进程 结束 。 
口 在 子 进程 中 , 执行 os .execl () 函数 (或 类 似 的 函数 ), 提供 子 进程 将 执行 的 命令 路 径 和 参数 。 
口 子 进程 使 用 给 定 的 stain、stdout 和 stderr 文件 开始 运行 。 
口 同时 ， 父 进程 使 用 os .wait () 函数 等 待 子 进程 结束 并 返回 最 终 状态 。 
口 由 于 使 用 了 check=True 选项 ， 因 此 非 零 的 状态 被 转换 为 run ( ) 函数 的 异常 

操作 系统 shell ( 例如 bash ) 对 应 用 程序 开发 人 员 隐 藏 了 这 些 详细 信息 。 类 似 地 ，subprocess .run () 
函数 隐藏 了 创建 和 等 待 子 进程 的 详细 信息 。 

Python 利用 subprocess 模块 提供 了 许多 类 似 shell 的 功能 。 最 重要 的 是 ，Python 提供 了 一 些 附 
加 功能 集 。 
口 拥有 更 丰富 的 数据 结构 。 
口 提供 能 识别 问题 的 异常 。 这 种 功能 比 在 shell 脚本 中 搬入 if 语句 检查 状态 码 要 简单 得 多 ， 也 
更 可 靠 。 
口 在 不 使 用 操作 系统 资源 的 情况 下 ， 对 脚本 进行 单元 测试 。 
















































































































































































13.11.4 ”补充 知识 


因为 所 有 输出 文件 都 应 当 以 原子 操作 创建 ， 所 以 我 们 将 为 脚本 添加 一 个 简单 的 清理 功能 。 我 们 需 
要 所 有 的 数据 文件 ， 或 者 一 个 都 不 要 ， 不 需要 不 全 的 数据 文件 。 

这 符合 ACID 特性 。 
口 原子 性 〈Atomicity) : 整个 数据 集 要 么 全 部 可 用 ， 要 么 全 部 不 可 用 。 这 个 集合 是 一 个 独立 且 不 


























可 分 割 的 工作 单元 。 
口 一 致 性 〈Consistency) : 文件 系统 应 从 一 个 内 部 一 致 状态 转移 到 另 一 个 一 致 状态 。 任 何 摘 要 3 
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或 索引 都 将 正确 反映 实际 的 文件 。 


口 隔离 性 〈lsolation): 如 果 并 发 处 理 数据 ， 那 么 应 该 有 多 个 并 行 过 程 。 并 发 操作 不 应 相互 干扰 。 
口 持久 性 〈Durability) : 文件 写 人 后 ， 应 保留 在 文件 系统 上 。 这 个 特性 几乎 与 文件 无 关 。 对 于 更 


复杂 的 数据 库 ， 有 必要 考虑 可 能 被 数据 库 客户 端 确认 但 事实 上 尚未 写 入 服务 器 的 事务 数据 。 
这 些 特性 中 的 大 多 数 都 相对 容易 实现 , 可 以 使 用 具有 独立 工作 目录 的 操作 系统 进程 来 实现 ,但 是 ， 
























































原子 性 需要 清理 操作 。 
为 了 实现 清理 








功能 ， 需 要 用 一 个 try : 块 包装 核心 处 理 过程 。 整 个 函数 如 下 所 示 : 
import subprocess 
from pathlib import Path 


def make_files (files=100): 
trys 
for n in range (files): 
filename = 'game_{n}.yaml'.format_map (vars()) 
command = ['python3', 'ch13_r05.py', 
'--samples', '10°', '--output', 
subprocess.run(command, check=True) 
except subprocess.CalledProcessError as ex: 
for partial in Path('.').glob("game_*.yaml"): 
partial.unlink() 
raise 


filename] 











异常 处 理 块 有 两 个 功能 。 首 先 ， 从 当前 工作 目录 下 删除 任何 不 完整 的 文件 。 其 次 ， 重 新 抛 出 原始 
异常 ， 以 便 将 故障 传播 到 客户 端 应 用 程序 。 


由 于 处 理 过 程 已 经 失败 ， 因 此 更 重要 的 是 抛 出 异常 。 在 某 些 情况 下 ， 应 用 程序 可 能 会 定义 一 个 新 


异常 , 这 个 异常 对 于 应 用 程序 是 唯 
葬 沙 > 
天 吊 















































一 的 。 抛 出 新 异常 可 以 代替 重新 抛 出 原始 的 calledProcessi 








Error 
单元 测试 
为 了 进行 单元 讽 





上 试 ， 需 要 模拟 两 个 外 部 对 象 , 还 需要 模拟 subprocess 模块 的 *un () 函数 。 我们 
不 想 实 际 运行 其 他 进程 ， 但 是 希望 从 make_files () 函数 中 正确 地 调用 *un () 函数 。 

还 需要 模拟 Path 类 以 及 该 类 得 到 的 Path 对 象 。 它 们 将 提供 文件 名 ， 并 调用 unlink () 方 法 。 
模拟 的 目的 是 确保 真正 的 应 用 程序 能 够 正确 删除 文件 。 

使 用 模拟 对 象 进行 测试 意味 着 在 测试 时 不 会 意外 删除 有 
化 测试 的 一 个 重要 优点 。 

定义 各 种 模拟 对 象 的 设置 如 下 所 示 : 


import unittest 
from unittest.mock import * 


















































的 文件 。 这 是 使 用 Python 进行 这 种 自动 








class GIVEN_make_files_exception_WHEN_cal1_THEN_run(unittest .TestCase) 
def setUp(self): 





self.mock_subprocess_run = MocK( 
side_effect = [ 
None, 
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subprocess.CalledProcessError(2, 'ch1l3_r05')] 
) 
self.mock_ path glob_ instance = Mock() 
self.mock_ path_ instance = Mock( 
glob = Mock( 
return value = [self.mock_ path glob_ instance] 
) 
) 
self.mock path class = Mock( 
return value = self.mock path instance 


) 

我 们 定义 了 self .mock_subprocess_run， 它 与 run() 函数 相似 。 使 用 side_effect 属性 为 
该 函数 提供 多 个 返回 值 。 第 一 个 响应 将 是 None 对 象 , 第 二 个 响应 将 是 calledProcessError 异常 。 
该 异常 需要 两 个 参数 : 进程 返回 码 和 原始 命令 。 

最 后 的 self .mock_path_class 响应 对 Path 类 请 求 的 调用 。 这 将 返回 该 类 的 一 个 模拟 实例 。 
self.mock_path_instance 对 象 是 Path 的 模拟 实例 。 

创建 的 第 一 个 Path 实例 将 执行 glob () 方 法 。 为 此 ， 使 用 return_value 属性 返回 一 个 将 要 删 
除 的 Path 实例 列表 。 在 本 例 中 ,返回 值 将 是 我 们 期 望 删除 的 一 个 Path 对 象 。 

self.mock_path_glob_instance 对 象 是 glob () 的 返回 值 。 如 果 算 法 正确 运行 ， 该 对 象 应 当 
被 删除 。 

该 单元 测试 的 runTest () 方 法 如 下 所 示 : 


def runTest (self): 
with patch(' main .subprocess.run', self.mock_ subprocess_run), \ 
patch('_ main .Path', self.mock path class): 
self.assertRaises( 
subprocess.CalledProcessError, make files, files=3) 
self.mock_subprocess_run.assert_has_calls( 
















































































[calll( 
['python3', ‘chl3_r05.py', '--Samples', '10°, 
'--output', 'game_0.yaml'], 
check=True), 
allt 
['python3', 'chl3_r05.py', '--samples', '10', 
'--output', 'game_l1.yaml'], 


check=True), 
] 


) 

self.assertEqual (2, self.mock_subprocess_run.call_count) 

self.mock_ path class.assert_called once with('.') 

self.mock_ path instance.glob.assert_called once with('game_*.yaml') 
self.mock_ path glob_ instance.unlink.assert_called once with() 


我 们 应 用 了 两 个 补丁 。 

口 在 main 模块 中 ,对 subprocess 的 引用 将 run() 函数 替换 为 self.mock_subprocess_ 
run 对 象 。 这 样 就 可 以 跟踪 *un () 的 调用 次 数 ， 也 可 以 确认 run() 是 否 以 正确 的 参数 调用 。 
口 在 _main 模块 中 ， 对 Path 的 引用 将 被 替换 为 self .mock_path_class 对 象 。 这 将 返回 
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已 知 的 值 ， 并 允许 我 们 确认 是 否 只 实现 了 预期 的 调用 。 

self.assertRaises 方法 用 于 确认 在 特定 上 下 文中 调用 make_files () 方 法 时 ， 是 否 正确 抛 出 
CalledProcessError 异常 。 模 拟 的 run () 方 法 将 会 抛 出 异常 , 我们 期 望 该 异常 是 停止 处 理 的 异常 。 

模拟 的 *un ( ) 函数 只 被 调用 了 两 次 。 第 一 次 调用 成 功 ， 第 二 次 调用 抛 出 异常 。 可 以 使 用 Mock 对 
象 的 call_count 属性 ,确认 run () 恰 好 被 调用 两 次 。 

self.mock path_instance 方法 模拟 Path('.') 对象， 后 者 是 作为 异常 处 理 的 一 部 分 被 创建 
的 。 该 模拟 对 象 必 须 执 行 glop () 方 法 。 测 试 断言 检查 参数 值 ， 以 确保 使 用 了 'game_* .yaml'。 

最 后 ，self.mock_path_glob_instance 是 由 Path('.').glob('game_*.yaml') 创 建 的 
Path 对 象 的 模拟 。 这 个 对 象 将 执行 unlink() 方 法 ， 这 导致 文件 被 删除 。 

这 个 单元 测试 说 明 算法 与 原始 设计 一 致 。 测 试 是 在 不 占用 大 量 计算 资源 的 情况 下 完成 的 。 最 重要 
的 是 ， 测 试 不 会 错误 删除 文件 。 


13.11.5 ”延伸 阅读 


口 这 种 自动 化 操作 通常 与 其 他 Python 处 理 过 程 相 结合 ， 请 参阅 13.6 节 。 
口 我 们 的 目标 往往 是 创建 复合 应 用 程序 ， 请 参阅 13.10 节 。 
口 有 关 本 实例 的 变 体 ， 请 参阅 13.12 节 。 


13.12 包装 程序 并 检查 输出 


一 种 常见 的 自动 化 操作 涉及 运行 多 个 程序 ,其 中 没有 一 个 程序 是 用 Python 编写 的 。 鉴 于 此 , 无 法 
通过 重 写 每 个 程序 来 创建 一 个 Python 复合 应 用 程序 。 为 了 正确 地 聚合 功能 ， 其 他 程序 必须 被 包装 为 
Python 的 类 或 模块 ， 以 提供 更 高 级 的 结构 。 

这 种 情况 非常 类 似 于 编写 shell 脚本 。 不 同 的 是 ，Python 是 比 操作 系统 的 内 置 shell 语言 更 好 的 编 
程 语言 。 

在 某 些 情况 下 ，Python 的 优势 在 于 能 够 分 析 输 出 文件 。Python 程序 可 以 转换 、 过 滤 或 汇总 子 进程 
的 输出 。 
如 何在 Python 中 运行 以 其 他 语言 编写 的 应 用 程序 并 处 理 其 输出 ? 


13.12.1 准备 工作 


13.6 节 设 计 了 一 个 应 用 程序 ， 它 执行 了 一 些 处 理 并 产生 了 非常 复杂 的 结果 。 该 应 用 程序 需要 运行 
几 百 次 , 但 是 我 们 不 想 把 必要 的 命令 复制 粘贴 到 脚本 中 。 另外, 因为 shell 很 难 测试 , 数据 结构 也 很 少 ， 
所 以 尽量 避免 使 用 shell。 

本 实例 假设 ch13_r05 是 一 个 本 地 二 进 制 应 用 程序 ， 可 能 是 用 C++ 或 Fortran 编写 的 。 这 意味 着 不 
能 简单 地 导入 包含 该 应 用 程序 的 Python 模块 , 而 是 必须 通过 运行 一 个 单独 的 操作 系统 进程 来 处 理 该 应 
用 程序 。 
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我 们 将 使 用 subprocess 模块 在 操作 系统 级 运行 一 个 应 用 程序 。 在 Python 中 运行 另 一 个 二 进 制 
程序 有 两 种 常见 的 情况 。 
口 没有 任何 输出 ， 或 者 不 在 Python 程序 中 收集 输出 。 
口 需要 收集 和 分 析 输 出 ， 用 于 取 回 信息 或 确定 完成 的 程度 。 还 可 能 需要 转换 、 过 滤 或 汇总 日 志 
输出 。 
本 实例 将 介绍 第 二 种 情况 。13.11 节 介 绍 了 第 一 种 情况 ， 其 中 输出 被 忽略 了 。 
运行 ch13_r05 应 用 程序 的 示例 如 下 : 


slotts$ python3 ch13_r05.py --samples 10 --output=x.yaml 


Namespace (output='x.yaml', output path=Posix Path('x.yaml'), samples=10, 
seed=None) 


Counter({5: 7, 6: 7, 7: 7, 8: 5, 4: 4, 9: 4, 11: 3, 10: 1, 12: 1})) 
输出 共有 两 行 ， 它 们 都 被 写 人 了 操作 系统 的 标准 输出 文件 。 第 一 行 输出 有 一 个 选项 的 摘要 。 第 二 
行 输出 是 一 个 包含 文件 汇总 的 Counter 对 象 。 我 们 和 希望 捕获 这 些 ' counter ' 行 的 详细 信息 


13.12.2 ”实战 演练 












































(1) 导入 subprocess 模块 。 


import subprocess 





























(2) 设计 命令 行 。 通 常 ， 该 步骤 应 当 在 操作 系统 提示 符 下 进行 测试 ， 以 确保 执行 正确 的 操作 。 前 
面 的 实例 已 经 显示 了 一 个 相关 示例 。 


(3) 为 将 要 执行 的 各 种 命令 定义 一 个 生成 器 。 每 个 命令 都 可 以 构建 为 单词 序列 。 首 先 ， 根 据 空格 
分 割 shell 命令 行 ， 创 建 一 个 单词 序列 。 


def commangd_ iter (files): 




















for n in range(files): 


filename = 'game_{n}.yaml'.format map (vars()) 
command = ['python3', 'chl3_r05.py', 
'--samples', '10', '--output', filename] 


yield command 





这 个 生成 器 将 生成 一 个 命令 字符 串 序 列 ， 客 户 端 可 以 使 用 for 语句 使 用 每 个 生成 的 命令 。 
(4) 定义 执行 各 种 命令 的 函数 ， 收 集 每 个 命令 的 输出 。 





def command_ output_iter (iterable): 
for command in iterable: 
process = subprocess.run(command, stdout=subprocess.PIPE, 
output_bytes = process.stdout 


check=True) 


output_lines = list(l1l.strip() for 1 in output_ bytes.splitlines()) 
yield output_lines 




















使 用 stdout=subprocess .PIPE 参数 值 表明 父 进 程 将 从 子 进 程 收 集 输 出 。 创建 一 个 操作 系统 级 
的 管道 ， 以 便 父 进程 可 以 读 取 子 进程 的 输出 。 
这 


这 个 生成 器 将 生成 一 个 行 的 列表 序列 。 每 个 行 的 列表 都 是 应 用 程序 ch13_r05.py 的 输出 行 。 通 常 ， 
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每 个 列表 中 将 有 两 行 。 第 一 行 是 参数 摘要 ， 第 二 行 是 Counter 对 象 。 
(5) 定义 一 个 总 的 处 理 过 程 来 组 合 两 个 生成 器 ， 这 样 生 成 的 每 个 命令 都 被 执行 。 
command_sequence = commangd_ iter(100) 
output_lines_sequence = command_ output_iter(command_ sequence) 
for batch in output_lines_ sequence: 
for line in batch: 
if line.startswith('Counter'): 
batch_ counter = eval (line) 
print (batch_counter) 


commangd_sequence 变量 是 产生 多 个 命令 的 生成 器 。 这 个 序列 由 commanda_iter () 函数 构建 

output_lines_sequence 是 产生 许多 输出 行列 表 的 生成 器 。 这 个 序列 由 command_output_ 
ter () 哨 数 构建 ， 该 函数 将 使 用 给 定 的 commana_seauence 对 象 运行 多 个 命令 并 收集 输出 。 

理想 情况 下 ， output_lines_sequence 中 的 每 批 数据 都 是 一 个 包含 两 行 的 列表 。 以 Counter 
开头 的 行 具有 counter 对 象 的 文本 表示 。 
使 用 eval () 函数 从 counter 对 象 的 文本 表示 中 重新 创建 原始 的 counter 对 象 。 可 以 使 用 这 些 
Counter 对 象 进行 分 析 或 汇总 。 

大 多 数 实际 的 应 用 程序 必须 使 用 比 内 置 的 eval () 更 复杂 的 函数 来 解释 输出 。 关 于 处 理 复杂 行 格 

式 的 信息 ， 请 参阅 1.7 节 和 9.6 节 。 
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13.12.3 ”工作 原理 


Python 程序 可 以 利用 subprocess 模块 运行 计算 机 上 的 其 他 程序 。run () 函数 执行 了 许多 操作 。 

在 POSIX 环境 中 (例如 Linux 或 Mac OS X )， 步 又 大 致 如 下 。 

口 为 子 进程 准备 stain、stdout 和 stderz 文件 描述 符 。 本 例 让 父 进程 收集 子 进程 的 输出 。 子 
进程 将 stdaout 文件 生成 到 一 个 由 父 进程 使 用 的 共享 缓冲 区 ( 管道 在 Linux 中 的 别称 )。 男 一 
方面 , 不 用 管 staerr 输出 子 进程 将 继承 父 进程 具有 的 相同 连接 , 而 错误 消息 将 显示 在 由 
父 进程 使 用 的 控制 台 上 。 

口 调用 os . fork () 函数 和 os .execl () 函数 将 当前 进程 拆 分 为 一 个 父 进程 和 一 个 子 进程 ， 然 后 
启动 子 进程 。 

口 子 进程 使 用 给 定 的 stdain 、stdqout 和 stderr 文件 开始 运行 。 

口 与 此 同时 ， 父 进程 在 等 待 子 进程 结束 时 ， 从 子 进程 的 管道 中 读 取 数 据 。 

口 由 于 使 用 了 check=True 选项 ， 因 此 非 零 的 状态 被 转换 为 run ( ) 函数 的 异常 。 









































































































































13.12.4 ”补充 知识 


我 们 将 为 这 个 脚本 添加 一 个 简单 的 汇总 功能 。 每 批 样本 产生 两 行 输出 。 表达 式 1ist (1.strip() 
for 1 in output_bytes.splitlines() ) 将 输出 文本 拆 分 为 一 个 两 行 的 序列 。 该 表达 式 将 文本 拆 
分 为 行 ， 而 且 还 会 删除 每 一 行 中 前 导 和 尾随 的 空格 ， 从 而 使 文本 更 容易 处 理 。 

主 脚 本 过 滤 输 出 行 ， 寻找 以 Counter 开头 的 行 。 这 些 行 中 的 每 一 行 都 是 一 个 Counter 对 象 的 文 
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本 表示 , 在 该 行 上 使 用 eval () 函数 将 重建 原始 counter 的 一 个 副本 。repr () 和 eval () 函数 是 互 逆 
的 ，repr () 函数 将 对 象 转换 为 文本 ，eval () 函数 可 以 将 文本 转换 回 对 象 。 虽 然 这 种 方法 可 能 并 不 适 
用 于 所 有 类 ， 但 是 适用 于 绝 大 多 数 类 。 
可 以 创建 各 种 counter 对 象 的 汇总 。 为 此 ,构建 一 个 生成 器 ， 处 理 每 批 数据 并 生成 最 终 的 摘要 。 
函数 如 下 所 示 : 


def process_batches () : 
command_sequence = command_ iter (2) 
output_lines_sequence = command_ output_iter(command_ sequence) 
for batch in output_lines_sequence: 
for line in batch: 
if line.startswith('Counter'): 
batch_ counter = eval (line) 
yield batch_ counter 


这 个 函数 使 用 commangd_iter () 函数 创建 处 理 命 令 。command_output_iter() 函数 处 理 每 个 单 
独 的 命令 并 收集 整个 输出 行 的 集合 。 

嵌 套 的 for 语句 将 依次 遍历 每 个 列表 中 的 每 一 行 ， 对 以 counter 开头 的 行 执行 eval () 哺 数 ， 
最 终 得 到 的 Counter 对 象 序列 是 这 个 生成 右 的 输出 。 

汇总 Counter 实例 序列 的 处 理 过 程 如 下 所 示 : 


total_counter = Counter () 

for batch counter in Process_batches () : 
print (batch_counter) 
total_counter.update(batch counter) 

PEINtC ("ToOtal™) 

print (total_counter) 


total_counter 保存 最 终 的 合计 结 oprocess_batches () 将 从 每 个 文件 产生 单独 的 Counter 
实例 。 这 些 批 级 对 象 用 于 更 新 total_counter。 最 后 可 以 打印 合计 结果 来 显示 所 有 已 创建 文件 中 数 
据 的 聚集 分 布 。 

































































13.12.5 ”延伸 阅读 


口 本 实例 的 男 一 种 解决 方法 ， 请 参阅 13.11 节 。 
口 这 种 自动 化 操作 通常 与 其 他 Python 处 理 过 程 相 结合 ， 请 参阅 13.6 节 。 
口 我 们 的 目标 往往 是 创建 复合 应 用 程序 ， 请 参阅 13.10 节 。 


13.13 ”控制 复杂 的 步骤 序列 


13.8 节 介 绍 了 将 多 个 Python 应 用 程序 组 合 为 一 个 复合 应 用 程序 的 方法 .13.11 节 和 13.12 节 研 究 了 
如 何 使 用 Python 包装 非 Python 程序 。 
如 何 有 效 地 结合 这 些 技术 ? 如何 使 用 Python 创建 更 长 、 更 复杂 的 操作 序列 ? 
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13.13.1 准备 工作 











13.6 节 人 4 
个 应 用 程 
总 体 处 理 流程 如 下 。 























(1) 运行 ch13_r05 100 次， 创建 100 个 中 间 文 件 。 














介绍 了 第 一 个 应 用 程序 ， 该 应 用 程序 通过 处 理 生 成 了 非常 
序 ， 它 基于 第 一 个 应 用 程序 的 结果 创建 了 复杂 的 统计 汇总 












































复杂 的 结果 。13.7 节 介 





介绍 了 第 




















(2) 运行 ch13 r06， 汇 总 这 些 中 间 文 件 。 

尽量 保持 设计 方案 简单 ， 这 样 就 可 以 专注 于 处 理 过 程 涉及 的 Python 编程 技术 。 

本 实例 假设 这 些 应 用 程序 都 不 是 用 Python 编写 的 ， 也 许 是 用 Fortran 、Ada 或 者 与 Python 不 直接 
兼容 的 其 他 语言 编写 的 。 





























13.8 节 研 究 了 如 何 组 合 Python 应 
方法 。 如 果 不 是 ， 则 还 需要 另外 一 些 设计 。 
本 实例 使 用 支持 扩展 和 修改 命令 序列 的 命 


























13.13.2 ”实战 演练 
个 Command 抽象 类 ， 其 他 命令 





(D 定义 一 被 定 


以 简化 子 类 。 


import subprocess 
class Command: 
def executel(self, 
self.command 
results 
check=True, 
self.output results.stdout 
return self.output 


options): 


程序 。 如 果 应 

















用 程序 是 用 Python 编写 的 ， 那 么 该 实例 是 首选 


令 设 计 模 式 。 


义 为 抽象 类 的 子 类 。 将 子 进 程 处 理 放 人 这 个 类 定义 ， 


self.create_command (options) 
subprocess.run(self.command, 
stdout=subprocess .PIPE) 








def create_ command(self, options): 
return ['echo', self._ class name 
executel ) 方 法 首先 创建 需 


则 。 命令 被 构建 之 后 ，subprocess 模块 的 run( 
create_command () () 方 法 构建 














要 执行 的 操作 系 ~ 每 个 子 类 为 被 包装 自 


, repr(self.options)] 


命令 提供 不 同 的 规 


这 个 命令 。 


函数 就 会 处 理 i 








1 操作 系统 执 和 ee 通常 ,options 用 于 自 定义 












































这 个 方法 来 产生 有 用 的 输出 。 





命令 参数 。 这 个 方法 的 超 类 实现 提供 了 一 些 调试 信息 。 每 个 子 类 必须 覆盖 
(2) 使 用 commang 超 类 定义 一 个 命令 来 模拟 游戏 并 创建 示例 。 





import ch13_r05 
class Simulate (Command): 
def _ init__(self, seed=None): 
self.seed seed 
def execute(self, options): 
if self.seed: 
os.environ['RANDOMSEED ' ] 
super() .execute (options) 


str(self.seed) 
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def create command (self, options): 
return ['python3', 'ch1l3_r05.py., 
'--samples', str(options.samples), 
'-o', options.game_filel] 


这 个 类 覆盖 了 execute () 方 法 ， 这 样 这 个 类 就 可 以 更 改 环境 变量 了 。 本 例 还 允许 集成 测试 设置 
特定 的 随机 种 子 ， 并 确认 结果 是 否 匹配 一 组 固定 的 预期 值 。 

create_command () 方 法 产生 在 命令 行 中 执行 cn13_r05 命令 的 那些 单词 ，options .samples 
的 数值 将 转换 为 字符 串 。 

(3) 使 用 commana 超 类 定义 一 个 命令 来 汇总 各 种 模拟 过 程 。 


import ch13_r06 









































class Summarize (Command): 
def create command (self, options): 
return LpPpyEhon3.,y, “chi rr00 py 
'-o', options.summary_file, 
] + options.game_files 


本 例 只 实现 了 create_command ()。 这 个 实现 为 ch13_r06 命令 提供 参数 。 
(4) 给 定 这 两 个 命令 ， 主 程序 就 可 以 遵循 13.6 节 的 设计 模式 。 我 们 需要 收集 各 选项 的 值 ， 然 后 使 
用 这 些 选 项 来 执行 命令 。 


from argparse import Namespace 




















def demo(): 

options = Namespace (samples=100, 
game_file='x1l2.yaml', game_files=['xl2.yaml'], 
summary_file='y12.yaml') 

stepl = Simulate() 

step2 = Summarize() 

stepl.execute (options) 

step2.execute (options) 


演示 函数 demo () 创建 了 一 个 Namespace 实例 , 并 提供 了 可 能 来 自命 令 行 的 参数 。 它 还 构建 了 两 
个 处 理 步 又 ， 最 后 执行 了 每 个 步 又 。 

本 实例 提供 了 用 于 执行 一 系列 应 用 程序 的 高 级 脚本 。 这 个 脚本 比 shell 更 灵活 ， 因 为 可 以 利 
Python 丰富 的 数据 结构 。 由 于 使 用 了 Python， 因 此 还 可 以 添加 单元 测试 。 



































<- 

















13.13.3 ”工作 原理 


本 实例 有 两 个 互 锁 的 设计 模式 : 
口 command 类 层次 结构 ; 
口 使 用 subprocess .xun () 图 数 包装 外 部 命令 。 

Command 类 层次 结构 的 设计 思想 是 ， 将 每 个 单独 的 步骤 或 操作 设计 为 一 个 通用 抽象 超 类 的 子 类 。 
在 本 例 中 ， 超 类 为 commanda， 两 个 操作 是 commang 类 的 子 类 。 这 种 设计 确保 可 以 为 所 有 类 提供 共同 
的 功能 。 
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包装 外 部 命令 有 几 个 关键 问题 。 一 个 关键 问题 是 如 何 构建 所 需 的 命令 行 选项 。 在 本 例 中 , run () 














函数 使 用 一 个 单词 列表 ， 使 得 很 容易 将 文本 字符 串 、 文 件 名 和 数值 组 合成 一 个 有 效 的 程序 选项 集 。 
另 一 个 关键 问题 是 如 何 处 理 操 作 系统 定 义 的 stain、stdout 和 stgerr 文件 。 在 某 些 情况 下 ， 这 
些 文件 可 以 显示 在 控制 台 上 。 在 其 他 情况 下 ， 应 用 程序 可 能 会 捕获 这 些 文件 ， 然 后 再 做 进一步 的 分 












































本 实例 的 基本 思想 有 两 个 考虑 因素 。 


(1) 








工 





每 个 命令 的 概述 包括 序列 、 和 迭代 、 条 件 处 理 和 序列 的 潜在 变化 等 问题 。 这 些 问题 是 与 用 








故事 相关 的 更 高 级 的 考虑 因素 。 


(2) 





每 个 命令 执行 方法 的 详细 信息 : 包括 命令 行 选项 、 输 出 文件 和 其 他 操作 系统 级 的 问题 。 这 些 





问题 主要 是 实施 细节 的 技术 考虑 因素 。 

分 离 这 两 个 考虑 因素 将 更 容易 实现 或 修改 用 户 故 事 。 更 改 操 作 系统 级 的 考虑 因素 不 应 该 改变 用 户 
故事 ;处 理应 该 更 快 或 使 用 更 少 的 内 存 ， 但 是 其 他 方面 则 是 相同 的 。 类 似 地 ， 对 用 户 故 事 的 更 改 不 应 
该 破坏 操作 系统 级 的 考虑 因素 。 


















































13.13.4 ”补充 知识 
复杂 的 步 又 序列 可 以 包含 一 个 或 多 个 步 又 的 迭代 。 由 于 顶层 脚本 是 用 Python 编写 的 , 因此 用 for 


语句 添 力 


























[人 兴 代 。 


def process_i (options): 


stepl = Simulate() 

options.game_files = [] 

for i in range(options.simulations): 
options.game_file = 'game_{i}.yaml'.format_ map (vars()) 
options.game_files.append (options.game_file) 
stepl.execute (options) 

step2 = Summarize() 

step2 .execute (options) 














process_i () 图 数 将 多 次 处 理 simulate 步骤 ,可 以 使 用 simulations 选项 指定 模拟 运行 的 次 


数 


O 








每 次 模拟 将 产生 预期 数量 的 样本 。 











这 个 函数 将 为 每 个 迭代 的 game_file 选项 设置 不 同 的 值 。 每 个 生成 的 文件 名 将 是 唯一 的 ， 随 后 
会 产生 大 量 的 样本 文件 ， 最 终 样本 文件 的 列表 也 被 收集 到 game_files 选项 中 。 

当 执 行 下 一 步 的 summarize 类 时 ， 它 将 具有 待 处 理 的 文件 列表 。 赋 值 给 options 变量 的 
Namespace 对 象 可 用 于 跟踪 全 局 状态 变化 ， 并 将 信息 提供 给 后 续 处 理 步 又 。 

构建 条 件 处 理 



































由 于 顶层 程序 是 用 Python 编写 的 , 因此 非常 容易 添加 附加 功能 。 这 些 功 能 不 是 基于 前 面包 装 的 两 


























个 应 用 程序 ， 其 中 一 个 功能 可 能 是 一 个 可 选 的 汇总 步骤。 








例 妇 





0， 如 果 options 中 没有 summary_file 选项 ， 则 跳 过 人 处理 。 这 个 版 本 的 process_c() 子 


数 如 下 所 示 : 


def process_c (options): 
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stepl = Simulate() 
stepl.execute (options) 
if 'summary_file' in options: 
step2 = Summarize() 
step2 .execute (options) 


process_c() 函数 将 有 条 件 地 处 理 summarize 步 又。 如 果 options 中 存在 summary_file 选 
项 ， 那 么 它 将 执行 第 二 步 的 汇总 步骤。 和 否则， 将 跳 过 汇总 步骤 。 
在 本 例 和 上 例 中 ， 我 们 使 用 Python 的 程序 设计 功能 扩充 了 两 个 应 用 程序 。 








13.13.5 ”延伸 阅读 


口 通常 ， 这 些 处 理 步 又 适用 于 较 大 或 者 复杂 的 应 用 程序 。 有 关 更 大 、 更 复杂 的 复合 应 用 程序 的 
更 多 实例 ， 请 参阅 13.8 节 和 13.10 节 。 
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